このシリーズではE資格対策として、シラバスの内容を項目別にまとめています。
MaskRーCNN
MaskRーCNNの概要
Mask R-CNNは物体検出やセグメンテーションに対応手法で、2017年に発表されました。この手法はFaster R-CNNを基盤にしており、特にセグメンテーションマスクを予測するための新しいブランチを追加しています。
このマスクブランチとは、各対象領域に適用される小さいFCN(完全畳み込みネットワーク)で、ピクセルごとにセグメンテーションマスクを予測する役割を果たします。この構造の実装は非常に単純で、Faster R-CNNフレームワーク上での訓練が可能であり、計算資源のオーバーヘッドも少ないため、高速なシステムを実現しています。
Mask R-CNNにおいて特筆すべき技術の一つが、RoIAlignと呼ばれる新しい層です。この層はFaster R-CNNにおけるピクセル間の位置ずれを修正するために使用されます。精確な空間位置を保存することで、マスク精度の大幅な向上が達成されています。
また、マスクの予測とクラスの予測の分離も重要な側面です。各クラス毎に独立してバイナリのマスクを予測することで効果的に動作し、細かいセグメンテーションのタスクも可能にしています。
マスクブランチ
マスクブランチの特徴は、対象領域ごとに小さなFCN(完全畳み込みネットワーク)を使用して、各ピクセルに対するセグメンテーションマスクの予測を行うことです。以下の図において、灰色部分がFaster R-CNNの構成で、白色部分がマスクブランチとして追加された部分。
RoIAlign
RoI(Region of Interest)とは、画像から物体が存在すると予測される領域のことで、物体検出の際に重要な役割を果たします。Faster R-CNNでは、このRoIの座標を整数値に丸めてピクセルに割り当てる方法であるRoI Poolingが使用されます。しかし、この方法では座標を丸めるため誤差が大きくなり、セグメンテーションマスクの作成などの細かい処理には不便です。
そこで、Mask R-CNNでは新たな手法としてRoIAlignが提案されました。RoIAlignの主な特徴は、丸め込みを行わず、双線形補間で得られた点から出力を計算することにあります。この方法のメリットは領域推定の精度向上で、以下のように動作します。
- RoIが実数の座標として得られるため、ピクセルとの割り当てが細かくできます。
- RoI内にサンプリングポイントを設定することで、領域の特徴をより正確に捉えることが可能です。
- 双線形補間により特徴マップを補間し、サンプリングポイントの値(ピクセルの座標)を決定することで、細かい特徴の取り出しが可能です。
- 設定されたサンプリングポイントを対象としてプーリングを実行することで、高精度な物体検出とセグメンテーションが実現します。
このように、RoIAlignはFaster R-CNNのRoI Poolingに比べて、精度の高い領域抽出を可能にし、Mask R-CNNにおける物体検出とセグメンテーションの性能向上に寄与しています。特にセグメンテーションタスクにおいて、ピクセルレベルでの正確な処理が求められるため、RoIAlignの効果が顕著に現れます。
まとめ
最後までご覧いただきありがとうございました。