・国立情報学研究所(NII)が主宰するLLM勉強会が、大規模言語モデル「LLM-jp-13B v2.0」とその構築リソースを公開。
・日本語ウェブコーパスの品質改善、モデルアーキテクチャの現代化、安全性に配慮したデータセットによるチューニングなどの改善が行われ、性能が大幅に向上。
・NIIは大規模言語モデル研究開発センターを新設し、LLMの透明性・信頼性の確保や安全性に関する研究を進め、日本発のLLM研究開発と社会での利活用を促進する予定。

国立情報学研究所(NII)が主宰するLLM勉強会(LLM-jp)が、大規模言語モデル「LLM-jp-13B」の後続モデル「LLM-jp-13B v2.0」およびその構築に使用した全リソースを2024年4月30日に公開しました。

LLM-jp-13B v1.0からの改善点

NIIによると、LLM-jp-13B v2.0では以下のような改善が行われています。

・日本語ウェブコーパスを「日本語Common Crawl」に変更し品質を大幅に改善
・モデルアーキテクチャを現代的なものに変更し、最大トークン長も4,096に拡張
・新たに構築した安全性に配慮したデータセットを用いてモデルのチューニングを実施

学習には約2,600億トークンのコーパスを使用し、うち日本語が約1,300億トークン、英語が約1,200億トークン、プログラムコードが約100億トークンとのことです。

22種類の評価データによる性能評価や、GPT-4を用いた自動評価、人手による安全性評価などを行った結果、LLM-jp-13B v1.0と比較して大幅な性能向上が確認されたそうです。

今後の展開

NIIでは2024年4月に大規模言語モデル研究開発センターを新設し、今回公開したモデルや今後構築するモデルを活用して、LLMの透明性・信頼性の確保や安全性に関する研究を進めていく予定です。
これにより日本発のLLM研究開発をさらに促進し、社会での利活用に向けた取り組みを加速させていくとのことでした。