・rinna株式会社が、大規模言語モデルGPTを活用した高精度な日本語音声認識モデル「Nue ASR」を開発・公開。
・Nue ASRは、日本語に特化したテキスト基盤モデルGPTと音声基盤モデルHuBERTを統合し、優れた性能を示している。
・rinnaは今後、音声対話の研究・開発・提供を進め、AIの社会実装を目指す方針であり、日本語AIの発展に大きく貢献することが期待される。
rinna株式会社は大規模言語モデルGPTを活用した日本語音声認識モデル「Nue ASR」を開発し、商用利用可能なライセンスで公開したことを発表しました。
大規模言語モデルの能力で高精度な音声認識を実現
rinnaは、日本語の処理に適したGPT・BERT・HuBERT・CLIP・Stable Diffusionなどのテキスト・音声・画像に関する事前学習済み基盤モデルを公開しており、日本語のAI開発を支えています。今回開発した「Nue ASR」は、これまでに公開してきた日本語に特化したテキスト基盤モデルGPTと音声基盤モデルHuBERTを統合した音声認識モデルです。
「Nue ASR」の特徴と性能
Nue ASRは、事前学習済みの音声基盤モデルHuBERTとテキスト基盤モデルGPTの間に畳み込み層を挟んで統合したモデルで、約19,000時間からなる日本語音声コーパスReazonSpeechコーパスを学習データに使用しています。GPT構造を用いているため、最先端の手法を容易に導入でき、性能改善の余地が大きいのが特徴です。
rinnaによると、Nue ASRは以下のような優れた性能を示しているとのことです。
- DeepSpeedを導入することで、リアルタイムファクタが0.22から0.15に短縮
- CSJの学習セットを用いたドメイン適応により、CSJ Eval1テストセットの文字誤り率が30.93%から5.43%に改善
- 利用条件によってはOpenAI WhisperシリーズやReazonSpeechモデルに匹敵する性能を達成
今後の展開
rinnaは今回の音声認識モデルの開発により、音声対話に必要となる音声認識・テキスト生成・音声合成の実験を一通り遂行できたとしています。今後は、これまでの実験で得られた知見を活かして、大規模言語モデルの次の活用方法である音声対話の研究・開発・提供を進め、AIの社会実装を行っていく方針です。