このページでは音声認識に関する技術のまとめを紹介します。
音声認識
音声認識は、人間の話す言葉をテキストに変換する技術です。
【音声認識2023】Google Colab で「Whisper large-v3」を使ってYouTube動画を文字起こしする(large-v2との精度比較あり)
今回はOpenAI の Whisper モデルを最新版である「Whisper large-v3」を使用して、YouTube動画を文字起こしする方法を紹介します。 Google colabを使用して簡単に実装することができ […]
「Faster Whisper」で英語のYouTube動画を日本語で文字起こしする
今回はOpenAI の Whisper モデルを再実装した高速音声認識モデルである「Faster Whisper」を使用して、英語のYouTube動画を日本語で文字起こしする方法を紹介します。 Google colabを […]
【音声認識2023】音声からテキストへ変換する「Faster Whisper」でYouTube動画の文字起こしを実装する
今回はOpenAI の Whisper モデルを再実装した高速音声認識モデルである「Faster Whisper」を実装する方法を紹介します。 基本的な操作から、YouTube動画の文字起こしまでを実装してみましょう。 […]
【音声認識2022】音声からテキストへ変換する「Whisper」でYouTube動画の文字起こしを実装する
今回は2022年9月に公開された、音声認識モデルである「Whisper」を実装する方法を紹介します。 基本的な操作から、YouTube動画の文字起こしまでを実装してみましょう。 Google colabを使用して簡単に実 […]
音楽生成
音楽生成は、アルゴリズムや人工知能を使用して音楽を作成するプロセスです。これには、既存の音楽スタイルの模倣、新しい音楽スタイルの創出、または特定の指示に基づいて音楽を作成することが含まれます。
【音声生成】Google Colab で OpenAI API の Text-to-Speech による音声生成を試す(6種類聞き比べ)
今回の記事ではテキストから音声ファイルを生成できるText-to-Speech のAPIの実装を紹介します。 Google Colabを使用して簡単に実装できますので、ぜひ最後までご覧ください。 OpenAI API の […]
【音楽生成】Audiocraftで音楽を自動生成する【MusicGen】
今回の記事では音楽を自動で作成できるAudiocraftの実装を紹介します。 Google Colabを使用して簡単に実装できますので、ぜひ最後までご覧ください。 Audiocraftとは Audiocraftは、音楽生 […]
【音声合成】VOICEVOXで音声ファイルを作成する
オープンソースの音声合成ソフトであるVOICEVOXについて紹介します。実際に音声ファイルを作成してみましょう。Google colabを使用して簡単に実装することができますので、ぜひ最後までご覧ください。(Google […]