・OpenAIのWhisperモデルをベースに、日本語に特化した高速かつ高精度な音声認識モデル「Kotoba-Whisper」がリリースされました。
・Kotoba-Whisperは、大規模な日本語音声データセットを使用して学習され、複数のテストセットで優れた性能を示しています。
・Kotoba-Whisperは、HuggingFaceのTransformersライブラリでサポートされており、高速化とメモリ使用量の改善が期待されています。

OpenAIのWhisperモデルをベースにした日本語に特化した音声認識モデル「Kotoba-Whisper」がリリースされました。Asahi UshioとKotoba Technologiesのコラボレーションにより開発されたこのモデルは、高速かつ高精度な日本語音声認識を実現しています。

Whisper large-v3をベースにしたモデル蒸留

Kotoba-Whisperは、OpenAIのWhisper large-v3をティーチャーモデルとして、モデル蒸留の手法を用いて開発されました。large-v3のエンコーダーをそのまま使用し、デコーダーはlarge-v3の最初と最後のレイヤーから初期化された2レイヤーで構成されています。これにより、Kotoba-Whisperはlarge-v3の6.3倍の速度で、ほぼ同等の低いエラー率を実現しています。

大規模な日本語音声データセットを使用した学習

Kotoba-Whisperの初期バージョンであるkotoba-whisper-v1.0は、日本のテレビ音声録音から抽出された最大の日本語音声-文字起こしペアデータセットであるReazonSpeechの大規模サブセットを使用して学習されました。学習には1,253時間の音声と16,861,235文字の文字起こしが使用され、文字エラー率(CER)が10以上の文字起こしは除外されました。

複数のテストセットでの高い性能

Kotoba-whisper-v1.0は、ReazonSpeechの保留テストセットにおいて、openai/whisper-large-v3よりも優れたCERとWERを達成しています。また、JSUT basic 5000やCommonVoice 8.0の日本語サブセットなどの外部テストセットでも、競争力のあるCERとWERを示しています。

実装

Kotoba-Whisperは、バージョン4.39以降のHugging Face 🤗 Transformersライブラリでサポートされています。ライブラリを使用することで、短い音声ファイル(30秒未満)の文字起こしや、長い音声ファイル(30秒以上)のシーケンシャルまたはチャンク化された文字起こしを簡単に実行できます。

高速化とメモリ使用量の改善

Kotoba-Whisperでは、Flash Attention 2やPyTorch Scaled Dot-Product Attention(SDPA)などの手法を適用することで、さらなる高速化とVRAM使用量の削減が可能です。これらの最適化により、推論速度の向上とメモリ使用量の削減が期待できます。

情報ソース