GoogleNetとは？意味をわかりやすく簡単に解説

text: XEXEQ編集部

GoogleNetとは

GoogleNetは2014年にGoogleが開発した画像認識に特化したディープラーニングモデルの一つです。ImageNetの画像認識コンテストであるILSVRC2014において、他の参加モデルと比較して非常に高い精度を達成しました。

GoogleNetは従来のコンボリューショナルニューラルネットワーク(CNN)をベースに、ネットワークの深さと幅を向上させた新しいアーキテクチャを採用しています。これにより、画像の特徴抽出能力を大幅に高めることに成功したのです。

GoogleNetの特徴の一つに、Inception モジュールと呼ばれる構造があります。このモジュールは異なるサイズの畳み込み層を並列に配置することで、画像内の様々なスケールの特徴を同時に抽出できるようになりました。

また、GoogleNetではネットワークの中間層に複数の出力を設けることで、勾配の消失問題を緩和しています。これにより、非常に深いネットワークを学習することが可能になったのです。

GoogleNetは画像認識タスクにおいて高い性能を示すだけでなく、その革新的なアーキテクチャは後続の多くのディープラーニングモデルに影響を与えました。現在でも、GoogleNetの設計思想は画像認識分野における重要な指針の一つとなっています。

GoogleNetのアーキテクチャ

GoogleNetのアーキテクチャに関して、以下3つを簡単に解説していきます。

Inceptionモジュールを用いた特徴抽出
中間層での損失関数の導入
1x1畳み込み層による次元削減

Inceptionモジュールを用いた特徴抽出

GoogleNetの中核をなすのが、Inceptionモジュールと呼ばれる構造体です。このモジュールでは異なるサイズの畳み込み層を並列に配置することで、画像内の様々なスケールの特徴を同時に抽出します。

具体的には1x1、3x3、5x5の畳み込み層と、3x3のマックスプーリング層を組み合わせて使用しています。これにより、ローカルな特徴からグローバルな特徴まで、幅広い特徴量を得ることができるのです。

Inceptionモジュールを複数積み重ねることで、GoogleNetは画像の階層的な特徴表現を学習します。この設計により、単純な畳み込み層の積み重ねでは捉えきれない複雑な特徴量を抽出可能になったのです。

中間層での損失関数の導入

GoogleNetのもう一つの特徴はネットワークの中間層においても損失関数を導入している点です。従来のCNNでは出力層でのみ損失関数を計算していましたが、GoogleNetでは中間層でも損失を計算しています。

この工夫により、勾配の消失問題を緩和し、より深いネットワークを学習することが可能になりました。中間層での損失関数はネットワーク全体の学習を促進する役割を果たしているのです。

また、中間層の出力を補助的な分類器として用いることで、GoogleNetは複数のタスクを同時に学習することもできます。これにより、汎化性能の向上も期待できるでしょう。

1x1畳み込み層による次元削減

GoogleNetでは計算量の削減と過学習の抑制のために、1x1の畳み込み層が多用されています。1x1畳み込みはチャネル方向の次元削減に用いられます。

Inceptionモジュール内では3x3や5x5の畳み込み層の前に1x1畳み込みを配置することで、特徴マップのチャネル数を削減しています。これにより、計算量を大幅に削減しつつ、必要な情報は保持することができるのです。

また、1x1畳み込みによる次元削減は過学習を防ぐ効果もあります。チャネル数が多すぎるとパラメータ数が増大し、過学習のリスクが高まりますが、1x1畳み込みを用いることでこの問題を緩和できるのです。

GoogleNetの応用例

GoogleNetの応用例に関して、以下3つを簡単に解説していきます。

物体検出への応用
セマンティックセグメンテーションへの応用
転移学習への応用

物体検出への応用

GoogleNetは物体検出タスクにも応用されています。物体検出では画像内の物体の位置を特定し、そのクラスを分類する必要があります。

GoogleNetを物体検出に応用する際はネットワークの出力層を物体の位置とクラスを予測するように変更します。これにより、GoogleNetの高い特徴抽出能力を物体検出に活かすことができるのです。

代表的な物体検出手法であるFaster R-CNNやSSDではGoogleNetをバックボーンネットワークとして採用しているケースもあります。GoogleNetの特徴量を利用することで、高精度な物体検出を実現しているのです。

セマンティックセグメンテーションへの応用

GoogleNetはセマンティックセグメンテーションにも用いられています。セマンティックセグメンテーションは画像内の各ピクセルにクラスラベルを割り当てるタスクです。

GoogleNetをセマンティックセグメンテーションに応用する際はネットワークの出力層をピクセル単位の予測に変更します。これにより、画像の各ピクセルが属するクラスを推定することができるのです。

セマンティックセグメンテーションでは画像の詳細な理解が求められます。GoogleNetの階層的な特徴表現はこのタスクに適しているといえるでしょう。実際に、GoogleNetをベースとしたセグメンテーションモデルは高い性能を達成しています。

転移学習への応用

GoogleNetは転移学習にも活用されています。転移学習とはあるタスクで学習済みのモデルを、別のタスクに適用する手法のことです。

GoogleNetは大規模なデータセットで学習済みのモデルが公開されているため、転移学習に適しています。GoogleNetで学習された特徴量を、別のタスクに流用することで、少ないデータでも高い精度を達成できるのです。

例えば、医療画像の分類タスクではImageNetで学習済みのGoogleNetを利用するケースがあります。大規模なデータセットで得られた汎用的な特徴量を活用することで、高精度な医療画像分類が可能になるのです。

GoogleNetの発展

GoogleNetの発展に関して、以下3つを簡単に解説していきます。

Inception-v2, Inception-v3
Inception-v4, Inception-ResNet
Xception

Inception-v2, Inception-v3

GoogleNetの発表後、そのアーキテクチャに改良を加えたInception-v2やInception-v3が提案されました。これらのモデルではInceptionモジュールの設計が見直され、より効率的な構成になっています。

例えば、Inception-v3では5x5の畳み込み層が2つの3x3畳み込み層に置き換えられています。これにより、パラメータ数を増やすことなく、受容野を広げることができるのです。

また、Inception-v3ではバッチノーマライゼーションが導入されました。これにより、学習の安定性と速度が向上しています。こうした改良により、Inception-v2やInception-v3は元のGoogleNetを上回る性能を達成しました。

Inception-v4, Inception-ResNet

さらなる改良を加えたモデルとして、Inception-v4やInception-ResNetが提案されています。これらのモデルでは残差接続の導入が特徴的です。

Inception-v4ではInception-v3をベースに、より深いネットワークが構築されました。また、Inception-ResNetではInceptionモジュールと残差接続を組み合わせることで、さらに深いネットワークを実現しています。

残差接続の導入により、勾配の消失問題がさらに緩和され、非常に深いネットワークを学習できるようになりました。実際に、Inception-ResNetは1000層を超える深さを持ちながら、高い性能を発揮しています。

Xception

GoogleNetの設計思想を発展させたモデルの一つに、Xceptionがあります。XceptionはInceptionモジュールの考え方を極限まで押し進めたアーキテクチャです。

XceptionではInceptionモジュールにおける異なるサイズの畳み込み層を、深さ方向に完全に分離しています。これにより、空間方向の相関と、チャネル方向の相関を別々に捉えることができるのです。

このアーキテクチャにより、Xceptionは非常に少ないパラメータ数で、高い表現力を獲得しています。ImageNetの分類タスクにおいて、XceptionはInception-v3を上回る性能を達成しました。Inceptionモジュールの設計思想はXceptionにおいて究極の形に洗練されたといえるでしょう。