・AIスタートアップのrinnaが、Meta社の大規模言語モデル「Llama 3 8B」を日本語に特化させた「Llama 3 Youko 8B」を公開。
・約220億トークンの日本語データを用いて事前学習を実施し、EleutherAI/gpt-neoxをベースにしたコードで継続学習。
・「Youko」の名称は日本の妖怪「妖狐」に由来し、今後のベンチマーク結果公開により日本語の自然言語処理技術の発展が期待される。

英語と日本語の大規模データを用いて事前学習を実施

AIスタートアップのrinnaは、Meta社の大規模言語モデル「Llama 3 8B」を日本語に特化させた「Llama 3 Youko 8B」を公開しました。rinnaによると、このモデルはLlama 3 8Bを初期モデルとして、以下のコーパスから約220億トークンを用いて継続学習を行ったとのことです。

  • Japanese CC-100
  • Japanese C4
  • Japanese OSCAR
  • The Pile
  • Wikipedia
  • rinnaが収集した日本語データセット

継続学習には、EleutherAI/gpt-neoxをベースにしたコードが使用されました。

「妖狐」から名前を取った「Youko」

「Youko」という名称は、日本の妖怪の一種である「妖狐(ようこ)」に由来しています。

rinnaは今後、このモデルの各タスクでのベンチマーク結果を公開する予定とのことです。日本語に特化した大規模言語モデルの登場により、日本語の自然言語処理技術がさらに発展することが期待されます。