DeepLab
DeepLabは、セマンティックセグメンテーションのための深層学習モデルの一つです。セマンティックセグメンテーションは、画像内の各ピクセルに対して、そのピクセルが属するクラス(例えば、人、車、建物など)を予測するタスクです。DeepLabは、畳み込みニューラルネットワーク(CNN)をベースとしており、Atrous convolutionと呼ばれる手法を導入するという特徴があります。
DeepLabの特徴
DeepLabは、以下の特徴を持っています:
- Atrous convolution:畳み込み層で、カーネルの要素間に穴(hole)を空けることで、受容野を広げる手法。これにより、広い範囲の情報を集約することができる。
- ASPP(Atrous Spatial Pyramid Pooling):複数の異なる率のAtrous convolutionを並列に適用し、その結果を結合することで、マルチスケールな特徴を捉える。
- エンコーダ・デコーダ構造:画像の特徴を抽出するエンコーダと、セグメンテーション結果を出力するデコーダからなる。
DeepLabの特徴
DeepLabの開発に至るまでには、以下のような関連研究がありました:
- FCN(Fully Convolutional Network):全結合層を用いず、畳み込み層だけで構成されたモデル。
- SegNet:エンコーダとデコーダが対称な構造を持ち、プーリング位置を記憶することで、境界付近の精度を向上させた。
- U-Net:エンコーダ側の特徴マップを、デコーダ側で同じサイズに切り出して利用するモデル。医療画像診断に用いられる。
- PSPNet:エンコーダとデコーダの間にPyramid Pooling Moduleを追加し、複数の解像度で特徴を捉えるモデル。
DeepLabは、これらの研究で提案された手法を取り入れつつ、Atrous convolutionを導入することで、さらなる性能向上を実現しています。特に、DeepLab V3+では、エンコーダ・デコーダ構造とASPPを組み合わせることで、最先端の性能を達成しています。
