GoogLeNet
GoogLeNetは、2014年のILSVRC(画像認識の精度を競うコンペティション)で優勝したディープラーニングモデルです。従来のモデルと比べて、より深い層を持ちつつ、独自のInceptionモジュールを導入することで高い識別精度を達成しました。
Inceptionモジュールの特徴
GoogLeNetの最大の特徴は、Inceptionモジュールと呼ばれる構造にあります。Inceptionモジュールでは、入力された特徴マップに対して、3x3、5x5、1x1の畳み込み、そして3x3のマックスプーリングを並列に適用します。これにより、異なるスケールの特徴を同時に捉えることができます。
これらの処理結果は最後に連結されるため、様々なスケールの特徴を統合的に扱うことが可能となります。また、1x1の畳み込みを活用することで、計算コストを抑えつつ非線形性を高めています。
深層ネットワークへの対応
GoogLeNetは22層という非常に深いネットワーク構造を持っています。しかし、層が深くなるほど勾配が消失しやすく、学習が困難になるという問題があります。
これに対応するため、GoogLeNetでは中間層にも損失関数を導入し、勾配を中間層に直接伝播させる工夫を行っています。これにより、深いネットワークでも効率的に学習を行うことが可能となりました。
GoogLeNetは、Inceptionモジュールによる特徴抽出と、深層ネットワークへの対応という2つの重要な特徴を持っています。これらの工夫により、ILSVRCにおいて高い識別精度を達成し、その後のディープラーニングモデルの発展に大きな影響を与えました。
GoogLeNetは画像認識の精度向上に大きく貢献しましたが、1000クラスの識別が前提となっているため、それ以外のクラスの識別には別途学習が必要という点には注意が必要です。
