このシリーズではE資格対策として、シラバスの内容を項目別にまとめています。

E資格まとめ

試験概要 ディープラーニングの理論を理解し、適切な手法を選択して実装する能力や知識を有しているかを認定する。 1.応用数学 (1)確率・統計 (2)情報理論 2.機…

SSD

SSDの概要

SSD(Single Shot Multibox Detector)は物体検出の一手法で、2015年に登場しました。この技術は、単一のディープニューラルネットワークを利用して、異なるアスペクト比とスケールのデフォルトボックスを用いてバウンディングボックスの出力空間を離散化します。この手法により、形やサイズが異なる多種多様なオブジェクトを効率的に検出できるようになりました。

SSDの予測時には、各デフォルトボックスでオブジェクトカテゴリの存在に対するスコアを生成し、オブジェクトの形状に適合するようにボックスを調整します。解像度の異なる複数の特徴マップの組み合わせによって、大小さまざまなオブジェクトを自然に扱うことができるのが特長です。

主要なデータセットでの実験結果によれば、SSDは他の物体提案段階を利用する手法と同様の精度を達成しながらも、より高速に結果を提供します。例えば、300×300の入力で74.3%のmAP、512×512の入力でFaster R-CNNモデルよりも優れた76.9%のmAPを達成したことが報告されています。小さい入力画像サイズでも高い精度を誇り、オブジェクト検出の分野で重要な地位を築いています。SSDの特性により、多岐にわたる応用が可能となり、画像認識や解析の分野において広く使用されるようになりました。

他の手法との比較

以前のオブジェクト検出のアプローチとして、Region Proposal Network(RPN)と分類器を組み合わせた方法が一般的でした。この方法は精度は高いものの、計算量が多く、ハイエンドハードウェアを使用した場合でもリアルタイムアプリケーションに対応する速度を提供できないという課題がありました。例えば、当時最も高速な高精度検出器であったFaster R-CNNでも、動作速度はわずか7フレーム/秒(FPS)でした。

この課題を解決するために、SSDはエンドツーエンドのオブジェクト検出器として開発されました。SSDの採用により、高精度を維持しながら速度が大幅に向上し、VOC2007テストではAP74.3%で59FPSという成果を達成しました。これは、Faster R-CNNや他のシングルショット検出器(YOLO)と比較しても、速度と精度のバランスが大いに改善されたことを示しています。

SSDの中心的な概念は、小さな畳み込みフィルタを特徴マップに適用し、固定セットのデフォルトの境界ボックスに対してカテゴリスコアとボックスオフセットを予測することです。異なるスケールの特徴マップから異なるスケールの予測値を生成し、アスペクト比によって予測値を明示的に分離することで、高い検出精度を達成しています。

このような設計上の特徴によって、SSDは低解像度の入力画像でさえ、シンプルなエンドツーエンドの学習と高精度を実現しました。速度と精度のトレードオフを改善したこの技術は、当時の最先端アプローチと比較しても顕著な進展でした。

モデルの構成

SSDは、ベースネットワークとその後に続く畳み込み特徴層から成り立っています。ベースネットワークは、レイヤーを進むごとに特徴マップのサイズが小さくなるように設計されているため、異なる解像度での予測を可能にします。畳み込み特徴層の出力は、カテゴリのスコアとデフォルトボックス座標に対する形状オフセットです。

デフォルトボックスについて深く理解するために、特徴マップ上の各ピクセルと、それに対応するアンカーボックスに注意を向けます。特徴マップが畳み込み層を通ることで、元の画像の解像度に引き戻したときのボックスがアンカーボックスになります。特徴マップが特定のサイズであれば、そのサイズに応じてアンカーボックスの個数が決定されます。

次に、各アンカーボックスに対して、スケールやアスペクト比を変えた複数個のボックスを作成します。このボックスがデフォルトボックスです。全特徴マップを合わせると、例えば論文の設定では8732個のデフォルトボックスが存在します。

モデルの目的は、各デフォルトボックスと実際のオブジェクトの位置とのずれ、すなわちオフセットを予測し、完全なボックスを予測することです。これは、デフォルトボックスの値にオフセットを加えることで達成されます。さらに、デフォルトボックスに対してクラス確率も出力されるため、各オブジェクトがどのクラスに属するかも予測します。

最終的に、1つの特徴マップから出力されるテンソルの形状は、特定の次元で表されます。この設計により、SSDは多様なスケールとアスペクト比のオブジェクトを高精度に検出することができるようになります。特に、デフォルトボックスの概念は、オブジェクトの位置と形状の多様性を効果的に捉えるための中心的な要素となっています。

まとめ

最後までご覧いただきありがとうございました。