【生成AIニュースメモ】rinna、大規模言語モデルGPTを活用した高精度な日本語音声認識モデル「Nue ASR」を公開(2023/12/7)

・rinna株式会社が、大規模言語モデルGPTを活用した高精度な日本語音声認識モデル「Nue ASR」を開発・公開。
・Nue ASRは、日本語に特化したテキスト基盤モデルGPTと音声基盤モデルHuBERTを統合し、優れた性能を示している。
・rinnaは今後、音声対話の研究・開発・提供を進め、AIの社会実装を目指す方針であり、日本語AIの発展に大きく貢献することが期待される。

rinna株式会社は大規模言語モデルGPTを活用した日本語音声認識モデル「Nue ASR」を開発し、商用利用可能なライセンスで公開したことを発表しました。

大規模言語モデルの能力で高精度な音声認識を実現

rinnaは、日本語の処理に適したGPT・BERT・HuBERT・CLIP・Stable Diffusionなどのテキスト・音声・画像に関する事前学習済み基盤モデルを公開しており、日本語のAI開発を支えています。今回開発した「Nue ASR」は、これまでに公開してきた日本語に特化したテキスト基盤モデルGPTと音声基盤モデルHuBERTを統合した音声認識モデルです。

「Nue ASR」の特徴と性能

Nue ASRは、事前学習済みの音声基盤モデルHuBERTとテキスト基盤モデルGPTの間に畳み込み層を挟んで統合したモデルで、約19,000時間からなる日本語音声コーパスReazonSpeechコーパスを学習データに使用しています。GPT構造を用いているため、最先端の手法を容易に導入でき、性能改善の余地が大きいのが特徴です。

rinnaによると、Nue ASRは以下のような優れた性能を示しているとのことです。