音声認識・音楽生成まとめ

このページでは音声認識に関する技術のまとめを紹介します。

音声認識

音声認識は、人間の話す言葉をテキストに変換する技術です。

2023年11月7日

今回はOpenAI の Whisper モデルを最新版である「Whisper large-v3」を使用して、YouTube動画を文字起こしする方法を紹介します。 Google colabを使用して簡単に実装することができ […]

2023年4月16日

今回はOpenAI の Whisper モデルを再実装した高速音声認識モデルである「Faster Whisper」を使用して、英語のYouTube動画を日本語で文字起こしする方法を紹介します。 Google colabを […]

2023年4月15日

今回はOpenAI の Whisper モデルを再実装した高速音声認識モデルである「Faster Whisper」を実装する方法を紹介します。基本的な操作から、YouTube動画の文字起こしまでを実装してみましょう。 […]

2022年9月26日

今回は2022年9月に公開された、音声認識モデルである「Whisper」を実装する方法を紹介します。基本的な操作から、YouTube動画の文字起こしまでを実装してみましょう。 Google colabを使用して簡単に実 […]

音楽生成は、アルゴリズムや人工知能を使用して音楽を作成するプロセスです。これには、既存の音楽スタイルの模倣、新しい音楽スタイルの創出、または特定の指示に基づいて音楽を作成することが含まれます。