・Databricksが高性能な大規模言語モデル「DBRX」を発表。様々な指標でオープンモデルの最高性能を達成。
・MoEアーキテクチャにより推論の高速化と学習の効率化を実現。GPT-3.5を上回り、特にプログラミングで特化モデルも凌駕。
・DBRXはオープンライセンスで公開。Databricksの各種ツールを活用し開発され、今後も継続的な改良が予定されている。
Databricksはオープンな汎用大規模言語モデル「DBRX」を発表しました。DBRXは様々な評価指標において、これまでのオープンモデルの中で最高の性能を示しています。
MoEアーキテクチャによる高効率化
DBRXはMoE(Mixture of Experts)アーキテクチャを採用することで、推論の高速化と学習の効率化を実現しています。推論速度はLLaMA2-70Bの最大2倍で、パラメータ数はGrok-1の約40%です。Databricksの最適化されたモデルサービングでは、ユーザーあたり最大150トークン/秒の生成速度を達成しています。
GPT-3.5を上回る性能
DBRXはGPT-3.5を上回り、Gemini 1.0 Proに匹敵する性能を示しています。特にプログラミングの分野では、CodeLLaMA-70Bのような特化モデルをも凌駕しています。
オープンライセンスで公開
DBRXのベースモデルとファインチューニングモデルの重みは、Hugging Faceからオープンライセンスで公開されています。Databricksの顧客は、APIを通じてDBRXをすぐに利用できるほか、チェックポイントからDBRXクラスのモデルをゼロから学習することも可能です。
Databricksの技術を結集して開発
DBRXの開発には、Apache Spark、Databricksノートブック、Unity Catalog、MLflowなど、Databricksの各種ツールが活用されました。特にデータセットの品質向上により、モデルの性能が大幅に改善されています。Databricksは、全ての企業がDBRXのようなモデルを自社のデータで学習できる環境の提供を目指しています。DBRXはDatabricksの次世代のGenAI製品の中核をなすものであり、今後も継続的な改良が行われる予定です。