・高性能な動画生成AI「Open-Sora 1.1」のレポートが公開され、特徴や開発の詳細が説明されている。
・マルチタスク学習やアーキテクチャの改良、大規模なデータセット構築などにより、性能や柔軟性が向上した。
・現在のモデルには課題が残されているが、着実に技術が洗練されており、今後のさらなる進化に期待が高まっている。

高性能な動画生成AI「Open-Sora 1.1」のレポートが公開されました。このレポートでは、Open-Sora 1.1の特徴や開発の詳細について説明されています。主な内容を引用しながらご紹介します。

マルチタスク学習で柔軟性と性能を向上

Open-Sora 1.1では、0秒から15秒までの様々な長さ、144pから720pまでの解像度、多様なアスペクト比の動画を学習に用いることで、マルチタスク学習を実現したとのことです。レポートによると、「時間的な一貫性の質は限られたFLOPsのために高くはないが、モデルの可能性は見られる」とコメントしています。

アーキテクチャの改良点

ST-DiTをベースにしたOpen-Sora 1.1のアーキテクチャでは、以下のような改良が加えられました。

  • 時間的アテンションにRope embeddingを使用
  • 時間的アテンションにAdaINとLayernormを適用
  • QK-normalizationとRMSNormの導入
  • 動的な入力サイズとビデオ情報の条件付けに対応
  • T5トークンを120から200に拡張

マスク戦略によるVideo-to-Video生成

Open-Sora 1.1では、マスク戦略を導入することで、Image-to-VideoやVideo-to-Videoの生成が可能になったと説明されています。学習時にランダムにフレームをマスクすることで、条件付き生成を学習させたそうです。

大規模なデータセットの構築

高品質な学習データの重要性を認識し、Open-Sora 1.1の開発チームは大規模なデータセット構築に取り組みました。最終的に、学習には970万本の動画と260万枚の画像、ファインチューニングには56万本の動画と160万枚の画像を使用したとのことです。

9日間のモデル学習

Open-Sora 1.1のモデル学習には、64基のH800 GPUを用いて約9日間を要したそうです。段階的に解像度を上げながら、合計で107,000ステップの学習を行ったと報告されています。

今後の課題と展望

レポートでは、現在のモデルの限界と今後の課題についても言及されています。生成の失敗、ノイズの多さ、時間的な一貫性の欠如、人物生成の質の低さ、美的スコアの低さ、長い動画ほど品質が落ちる傾向があることなどが挙げられました。これらの課題に対処すべく、今後のバージョンアップに向けて開発を続けていくとのことです。

Open-Sora 1.1のレポートからは、着実に発展を遂げる動画生成AIの現状が伺えます。課題はまだ多く残されていますが、着実に技術が洗練されていることが分かります。今後のさらなる進化に期待が高まります。

引用:https://github.com/hpcaitech/Open-Sora?tab=readme-ov-file