・Metaが最新の大規模言語モデル「Meta Llama 3」を発表し、オープンソースLLMの中で最高の性能を持つ。
・Llama 3はモデルアーキテクチャ、プリトレーニングデータ、スケールアップ、インストラクション・ファインチューニングの改善により大幅に性能が向上。
・責任ある開発と配備を目指し、今後数ヶ月で新機能を備えた複数のモデルをリリース予定。Llama 3を搭載したMeta AIは主要アプリで利用可能
Metaは4月18日、最新の大規模言語モデル「Meta Llama 3」を発表しました。Meta Llama 3は現在利用可能なオープンソースのLLMの中で最も優れた性能を持つモデルだと言えます。
Llama 3モデルは近日中に主要なクラウドプラットフォームやハードウェアプラットフォームから利用可能になる予定です。responsibleな開発と利用に力を入れており、Llama Guard 2やCode Shieldなどの新しい安全性ツールも提供します。
今後数ヶ月の間に、より長いコンテキストウィンドウ、追加のモデルサイズ、パフォーマンスの向上など、新しい機能を導入する予定とのことです。
Llama 3の特徴と性能
Llama 3の8Bと70Bパラメータモデルは、Llama 2から大きく進化し、同規模のモデルの中で最高の性能を示しています。
プリトレーニングとポストトレーニングの改善により、プリトレーニングモデルとインストラクション・ファインチューニング・モデルの両方で、現在利用可能な同規模のモデルの中で最高の性能を発揮しています。
推論、コード生成、指示に従う能力など、Llama 3の操作性も大幅に向上しました。
Llama 3の開発方針
Llama 3の開発では、モデルアーキテクチャ、プリトレーニングデータ、プリトレーニングのスケールアップ、インストラクション・ファインチューニングの4つの要素に焦点を当てています。
モデルアーキテクチャでは、言語をより効率的にエンコードできる128Kトークンのボキャブラリを持つトークナイザーを採用し、パフォーマンスを大幅に改善しました。
プリトレーニングデータは、Llama 2の7倍の15兆トークン以上を使用。品質管理にも力を入れ、高品質のデータのみを使用しています。
大規模なプリトレーニングを効率的に行うために、3種類の並列化を組み合わせ、16,000個のGPUで同時にトレーニングを行いました。
インストラクション・ファインチューニングでは、SFT、リジェクションサンプリング、PPO、DPOを組み合わせたアプローチを取っています。推論やコーディングのタスクでもパフォーマンスが大幅に向上しました。
責任あるLLM開発への取り組み
Llama 3モデルは、業界をリードするレベルで責任ある開発と配備を目指して設計されています。
インストラクション・ファインチューニングは、モデルの安全性確保においても重要な役割を果たしています。内部および外部の専門家によるレッドチーミング(テスト)を行い、問題のある応答を引き出そうとする逆説的なプロンプトを生成しています。
オープンなアプローチを取ることで、エコシステム全体でこれらの潜在的な危険を軽減することができると考えています。
今後のLlama 3の展望
今回リリースされた8Bと70BのLlama 3モデルは、今後リリース予定のLlama 3の始まりに過ぎません。
今後数ヶ月の間に、マルチモーダル、多言語会話、より長いコンテキストウィンドウ、全体的な能力の強化など、新しい機能を備えた複数のモデルをリリースする予定です。
最大規模のモデルは400B以上のパラメータを持ち、トレーニングが進行中ですが、期待できる結果が出ているようです。
MetaはLlama 3モデルを責任を持ってオープンにリリースすることで、オープンなAIエコシステムの継続的な成長と発展に貢献したいと考えています。
Llama 3を搭載した「Meta AI」
Llama 3テクノロジーを搭載した「Meta AI」は、世界有数のAIアシスタントの1つになったと考えています。
FacebookやInstagram、WhatsApp、Messengerなどのアプリやウェブ上で利用可能で、タスクの実行、学習、コンテンツ作成、つながりなどに役立ちます。
近日中にRay-Ban MetaスマートグラスでもマルチモーダルなメタAIを試せるようになる予定です。