【生成AI論文メモ】Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context(2024/5/18)

・Googleが計算効率の高いマルチモーダルモデル「Gemini 1.5」を発表。Gemini 1.5 ProとGemini 1.5 Flashの2つのモデルが含まれる。
・Gemini 1.5は最大1,000万トークンという非常に長いコンテキストを処理可能。書籍全体のコレクション、数時間の動画、5日間の音声など長時間の複合的な入力の処理が可能に。
・長文コンテキスト処理能力の評価実験で優れた結果。他のLLMと比較しても高い性能を示し、大規模言語モデル分野における大きな進歩を示唆。

Googleの最新マルチモーダルモデルGemini 1.5

GoogleのGeminiチームは、Gemini 1.0の後継となる、計算効率の高いマルチモーダルモデル「Gemini 1.5」を発表しました。Gemini 1.5には、2つの新しいモデルが含まれています。1つ目は、以前のバージョンよりも多くの機能とベンチマークで優れた性能を発揮する「Gemini 1.5 Pro」です。2つ目は、品質をほとんど低下させることなく効率性のために設計された軽量版の「Gemini 1.5 Flash」です。Gemini 1.5モデルは、テキスト、動画、音声など、さまざまな種類の情報を最大1,000万トークンという非常に長いコンテキストで処理することができます。これは、複数の長文ドキュメント、数時間の動画や音声などを含む、長時間の複合的な入力の処理を可能にする画期的なモデルです。

マルチモーダルモデルとは？

Gemini 1.5は、テキスト、画像、動画、音声など、複数のモダリティを同時に処理できるマルチモーダルモデルです。Gemini 1.5は、混合専門家（MoE）アーキテクチャと、訓練、蒸留、提供インフラにおける主要な進歩を取り入れており、効率性、推論、計画、多言語対応、関数呼び出し、長文コンテキスト性能の限界を押し広げています。

驚異的な長文コンテキスト処理能力

Gemini 1.5モデルは、最大1,000万トークンという非常に長いコンテキストを処理できるように構築されています。これは、同時代の他の大規模言語モデル（LLM）には見られない規模であり、書籍全体のコレクション、数時間の動画、ほぼ5日間の音声など、長時間の複合的な入力を処理することができます。

「Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context」によると、コンテキストウィンドウの拡大は、より一般的で能力の高い言語モデルの開発を追跡しており、シャノンが1948年に提案した2グラム言語モデルから、1990年代と2000年代の5トークンに制限されたnグラムモデル、2010年代の数百トークンを効果的に調整できたリカレントニューラルネットワーク言語モデル、そして数十万トークンを調整できるTransformerへと至っています。Gemini 1.5 Proは、この傾向を継続し、言語モデルのコンテキスト長を1桁以上拡大しています。数百万トークンに拡張することで、予測性能の継続的な改善（5.2.1.1項）、合成検索タスクにおけるほぼ完璧な再現性（>99%）（図1、5.2.1.2項）、長文ドキュメントやマルチモーダルコンテンツからのインコンテキスト学習など、多くの新しい機能が実現しました（5.2.2項）。

長文コンテキスト処理能力の評価

Gemini 1.5モデルの長文コンテキスト処理能力を評価するために、Geminiチームは、Kamradt(2023)に触発された、「干し草の山の中の針」を探すタスクのような、人工的なタスクと現実世界のタスクの両方で実験を行いました。このタスクでは、モデルが邪魔なコンテキストの中で情報をどれだけ確実に思い出すことができるかを調べます。Gemini 1.5 ProとGemini 1.5 Flashはどちらも、テキスト、動画、音声のすべてのモダリティにおいて、数百万トークンの「干し草の山」から「針」をほぼ完璧に（>99%）思い出すことができました。また、Gemini 1.5 Proでは、3つのモダリティすべてにおいて、コンテキストを1,000万トークンに拡張した場合の性能評価も行いました。その結果、コンテキストサイズを大幅に増加させても、再現性能は維持されることがわかりました。

言語の学習能力

Gemini 1.5 ProとGemini 1.5 Flashは、非常に長いコンテキストで有効になるインコンテキスト学習能力を示しています。例えば、1つの命令文書（500ページの参考文法書、辞書、約400の追加パラレルセンテンス）がコンテキストで提供されただけで、Gemini 1.5 ProとGemini 1.5 Flashは、英語からKalamang（話者数が200人未満のパプア諸語）に翻訳することを学習でき、同じ資料から学習した人間と同等の品質で翻訳することができました。

他の大規模言語モデル（LLM）との比較

Gemini 1.5 Proは、広範囲な評価ベンチマークにおいて、Gemini 1.0 Proおよび1.0 Ultraを上回っており、しかも、訓練に必要な計算量が大幅に少なくて済むと報告されています。同様に、Gemini 1.5 Flashは、1.0 Proと比較して一貫して優れた性能を発揮し、いくつかのベンチマークでは1.0 Ultraと同レベルの性能を発揮しています。

出典：https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf

カテゴリー: 生成AIニュース

タグ: gemini 生成AIニュース論文