・AIスタートアップのrinnaが、Meta社の大規模言語モデル「Llama 3 8B」を日本語に特化させた「Llama 3 Youko 8B」を公開。
・約220億トークンの日本語データを用いて事前学習を実施し、EleutherAI/gpt-neoxをベースにしたコードで継続学習。
・「Youko」の名称は日本の妖怪「妖狐」に由来し、今後のベンチマーク結果公開により日本語の自然言語処理技術の発展が期待される。
英語と日本語の大規模データを用いて事前学習を実施
AIスタートアップのrinnaは、Meta社の大規模言語モデル「Llama 3 8B」を日本語に特化させた「Llama 3 Youko 8B」を公開しました。rinnaによると、このモデルはLlama 3 8Bを初期モデルとして、以下のコーパスから約220億トークンを用いて継続学習を行ったとのことです。
- Japanese CC-100
- Japanese C4
- Japanese OSCAR
- The Pile
- Wikipedia
- rinnaが収集した日本語データセット
継続学習には、EleutherAI/gpt-neoxをベースにしたコードが使用されました。
「妖狐」から名前を取った「Youko」
「Youko」という名称は、日本の妖怪の一種である「妖狐(ようこ)」に由来しています。
rinnaは今後、このモデルの各タスクでのベンチマーク結果を公開する予定とのことです。日本語に特化した大規模言語モデルの登場により、日本語の自然言語処理技術がさらに発展することが期待されます。