【生成AIニュースメモ】DeepSeek-V2: 最先端の大規模オープンソース言語モデルが登場(2024/5/7)

・DeepSeek-AIが大規模言語モデルDeepSeek-V2の詳細をオープンソースで公開。
・各種ベンチマークで高い評価性能を達成し、GPT-4に迫る会話生成能力を示した。
・Multi-head Latent AttentionとDeepSeekMoEにより、効率的な推論と経済的な学習を実現。APIの低価格設定も魅力的。

DeepSeek-AIが開発した大規模言語モデルDeepSeek-V2の詳細がGitHubリポジトリで公開されました。DeepSeek-V2は、効率的な推論を実現する革新的なアーキテクチャを採用した、強力かつ経済的なMixture-of-Experts（MoE）言語モデルです。

高い評価性能を達成

DeepSeek-V2は各種ベンチマークで高い評価性能を示しています。中国語の会話生成能力を評価するAlignBenchでは、GPT-4を上回りGPT-4-Turboに迫るスコアを記録し、上位3位に入りました。また、英語の会話生成能力を評価するMT-Benchでも、LLaMA 70Bと同等の高い性能を発揮し、Mixtral 8x22Bを上回る結果となりました。

さらに、数学や論理推論、プログラミングなどの分野でも優れた能力を示しています。最大128,000トークンの長い文脈にも対応できる点も特長です。

効率的なモデルアーキテクチャ

DeepSeek-V2の総パラメータ数は2,360億ですが、そのうち推論に使用されるアクティブなパラメータは210億に抑えられています。Multi-head Latent Attention（MLA）と呼ばれる新しいアテンション機構により、キーバリューキャッシュを削減し効率的な推論を実現。またDeepSeekMoEと名付けられた新しいMoEアーキテクチャにより、経済的なコストで強力なモデルの学習を可能にしています。