・DeepSeek-AIが大規模言語モデルDeepSeek-V2の詳細をオープンソースで公開。
・各種ベンチマークで高い評価性能を達成し、GPT-4に迫る会話生成能力を示した。
・Multi-head Latent AttentionとDeepSeekMoEにより、効率的な推論と経済的な学習を実現。APIの低価格設定も魅力的。
DeepSeek-AIが開発した大規模言語モデルDeepSeek-V2の詳細がGitHubリポジトリで公開されました。DeepSeek-V2は、効率的な推論を実現する革新的なアーキテクチャを採用した、強力かつ経済的なMixture-of-Experts(MoE)言語モデルです。
高い評価性能を達成
DeepSeek-V2は各種ベンチマークで高い評価性能を示しています。中国語の会話生成能力を評価するAlignBenchでは、GPT-4を上回りGPT-4-Turboに迫るスコアを記録し、上位3位に入りました。また、英語の会話生成能力を評価するMT-Benchでも、LLaMA 70Bと同等の高い性能を発揮し、Mixtral 8x22Bを上回る結果となりました。
さらに、数学や論理推論、プログラミングなどの分野でも優れた能力を示しています。最大128,000トークンの長い文脈にも対応できる点も特長です。
効率的なモデルアーキテクチャ
DeepSeek-V2の総パラメータ数は2,360億ですが、そのうち推論に使用されるアクティブなパラメータは210億に抑えられています。Multi-head Latent Attention(MLA)と呼ばれる新しいアテンション機構により、キーバリューキャッシュを削減し効率的な推論を実現。またDeepSeekMoEと名付けられた新しいMoEアーキテクチャにより、経済的なコストで強力なモデルの学習を可能にしています。
オープンソースでありながら低価格
DeepSeek-V2はソースコードがオープンソースで公開されており、誰でも自由に利用できます。同時に、APIの価格設定は他社の大規模言語モデルと比べて非常に低価格に抑えられているのも魅力です。商用利用にも対応しています。
DeepSeek-AIは、DeepSeek-V2の技術的詳細をまとめたレポートもリリースしています。今後のさらなる発展が期待される、注目の大規模言語モデルと言えるでしょう。