【生成AIニュースメモ】YouTubeの動画から作成された大規模なテキストデータ「YouTube-Commons」(2024/4/19)

・YouTubeのCC-BYライセンス動画から作成された大規模テキストデータ「YouTube-Commons」が公開された。
・YouTube-Commonsは297億語以上の膨大なデータ量を誇り、会話的なデータが豊富に含まれている。
・このデータセットは、AI、計算社会科学、デジタル人文学などの研究に会話データの利用可能性を広げることを目的としている。

オープンリサーチ推進のため、YouTubeの動画から作成された大規模なテキストデータ「YouTube-Commons」の公開が発表されました。

CC-BYライセンス動画の書き起こしを収録

YouTube-Commonsは、YouTubeに投稿されたCC-BYライセンス動画の音声を書き起こしたテキストを集めたデータセットです。PleIAsプロジェクトが公開した情報によると、206万本以上の動画から得られた1500万件を超える書き起こしデータが含まれているとのことです。

297億語を超える大規模コーパス

YouTube-Commonsのテキストデータ量は膨大で、全体で297億語以上にもなるそうです。「これまでのオープンライセンスのテキストデータの多くは、パブリックドメインの書籍や学術論文が中心でした」と、PleIAsでは説明しています。一方、YouTube-Commonsは会話的なデータが豊富に含まれているのが特徴だといえるでしょう。

自動翻訳により多言語展開

元の書き起こしの言語は英語が71%と大半を占めていますが、ほぼすべての動画について、英語・フランス語・スペイン語・ドイツ語・ロシア語・イタリア語・オランダ語への自動翻訳が提供されているそうです。これにより、多言語でのAI研究などにも役立つものと期待されます。

CC-BYライセンスとオープンな利用を推奨

すべての書き起こしデータは、CC-BYライセンスで公開された動画のものです。PleIAsでは「CC-BYライセンスのコンテンツは、あらゆる状況で適法に再利用できますが、言語モデルの事前学習に自由なコンテンツを使用することの正当性と倫理的な利用方法については、現在議論が行われています」と述べています。その上で、YouTube-Commonsについては、クリエイティブ・コモンズの理念に従い、オープンな研究での利用を推奨しているとのことでした。

今回公開されたYouTube-Commonsは、今後もさらなる拡充が予定されているそうです。PleIAsでは「YouTubeで入手可能なクリエイティブ・コモンズ・ライセンスの動画の総量をカバーするには程遠い状況です。私たちは今後もこのデータセットを大幅に拡大し続ける予定です」と意気込みを語っていました。オープンな研究やAI開発の発展に貢献するデータセットとして、YouTube-Commonsから目が離せませんね。

詳細：https://huggingface.co/datasets/PleIAs/YouTube-Commons