FPN(Feature Pyramid Network)

FPN(Feature Pyramid Network)は、物体検出タスクにおいて高い精度を実現するために提案されたネットワーク構造です。物体検出タスクでは、入力画像に映る物体のクラス識別と、その物体の位置(矩形領域)を特定することが求められます。FPNは、特に2段階モデルの一種であり、物体の位置を特定した後にクラス識別を行います。

ピラミッド構造による多尺度の特徴抽出

FPNの大きな特徴は、ピラミッド構造を用いて多尺度の特徴を抽出することです。CNNの各層で得られる特徴マップは、層が深くなるほど小さくなります。FPNでは、これらの特徴マップを利用して、物体の大きさに応じた特徴を抽出します。具体的には、浅い層の特徴マップは小さな物体の検出に、深い層の特徴マップは大きな物体の検出に用いられます。

上位層の特徴を下位層に伝播

FPNでは、上位層で得られた特徴を、下位層の特徴マップに伝播させる仕組みを導入しています。これにより、下位層の特徴マップに、上位層で得られた意味的な情報を反映させることができます。この特徴伝播は、上位層の特徴マップをアップサンプリングし、下位層の特徴マップと要素ごとに足し合わせることで実現されます。

物体候補領域の抽出とクラス識別

FPNでは、ピラミッド構造の各層の特徴マップから、物体候補領域を抽出します。この物体候補領域の抽出には、Region Proposal Network(RPN)と呼ばれるネットワークが用いられます。RPNは、各特徴マップ上でスライディングウィンドウを適用し、物体候補領域を効率的に生成します。その後、抽出された物体候補領域に対してクラス識別が行われ、最終的な物体検出結果が得られます。