・Qwen1.5シリーズの初の1000億パラメータ超モデル「Qwen1.5-110B」がリリースされた。
・ベースモデル評価ではMeta-Llama3-70Bと同等の性能を示し、チャット評価でも72Bモデルより大幅に優れた結果を達成した。
・Qwenチームは今後、データとモデルサイズの両方をスケーリングすることで、更なる性能向上を目指すとしている。

最近、オープンソースコミュニティでは1000億パラメータを超える大規模モデルが続々と登場しています。これらのモデルは、ベンチマーク評価やチャットボットの性能で目覚ましい結果を示しています。
今回、Qwenチームは「Qwen1.5-110B」という、Qwen1.5シリーズで初となる1000億パラメータ超のモデルをリリースしました。同モデルは、ベースモデル評価ではMeta-Llama3-70Bと同等の性能を達成し、MT-BenchやAlpacaEval 2.0などのチャット評価でも優れた結果を示しています。

Qwen1.5-110Bの特徴

Qwen1.5-110Bは、他のQwen1.5モデルと同様にTransformerデコーダアーキテクチャで構築されており、grouped query attention(GQA)を採用することでモデルの効率的な提供が可能とのことです。また、コンテキスト長は32Kトークンに対応し、英語、中国語、フランス語、スペイン語、ドイツ語、ロシア語、韓国語、日本語、ベトナム語、アラビア語など多くの言語をサポートするマルチリンガルモデルになっています。

ベースモデルの評価結果

Qwenチームは、最新の高性能言語モデルであるMeta-Llama3-70BやMixtral-8x22Bとの比較を含む一連のベース言語モデル評価を実施しました。
評価の結果、新しい110Bモデルはベース能力の面でLlama-3-70Bモデルと少なくとも競合することが示されました。Qwenチームは、事前学習と事後学習のレシピを大幅に変更していないため、72Bモデルと比較した性能向上はモデルサイズの増加によるものだと考えています。

チャットモデルの評価結果

また、MT-BenchとAlpacaEval 2.0の2つのチャットモデルのベンチマーク評価でも、110Bモデルは以前にリリースされた72Bモデルよりも大幅に優れた性能を示しました。この一貫した改善は、事後学習のレシピをあまり変更しなくても、より強力で大規模なベース言語モデルがより優れたチャットモデルにつながることを示唆しているとのことです。

まとめ

Qwen1.5-110Bは、Qwen1.5シリーズで最大のモデルであり、同シリーズで初の1000億パラメータを超えるモデルでもあります。最近リリースされた最先端モデルLlama-3-70Bに匹敵する性能を示し、72Bモデルよりも大幅に優れています。
Qwenチームは、Llama-3のリリースは非常に大規模なデータスケーリングの重要性を示していますが、将来のリリースではデータとモデルサイズの両方をスケーリングすることで、両方の利点を最大限に生かせると考えているそうです。