・Sakana AIが、日本語プロンプトに対応した高速画像生成モデル「EvoSDXL-JP」を教育目的で一般公開。
・EvoSDXL-JPは、進化的モデルマージにより異なるオープンモデルを融合し、推論速度が10倍、画像精度と人間好みの度合いが最高レベル。
・同社は、EvoSDXL-JPが日本の教育現場などで活用され、より多くの人が生成AIのメリットを享受できることを期待している。

Sakana AIは4月22日、「進化的モデルマージ」を拡散モデルに適用し、日本語プロンプトに対応した高速な画像生成モデル「EvoSDXL-JP」を教育目的で一般公開したと発表しました。

進化的モデルマージとは何か

Sakana AIが提案した「進化的モデルマージ」は、自然界の原理を生かした進化的アルゴリズムを用いて、異なる能力を持つモデルを自動的に融合し、新しい高性能な基盤モデルを構築する手法です。
先日リリースされた日本語の大規模言語モデル「EvoLLM-JP」や画像言語モデル「EvoVLM-JP」は、この手法で言語生成の自己回帰型Transformerモデルを融合したものでした。

日本語対応の高速画像生成モデル「EvoSDXL-JP」

今回Sakana AIは、進化的モデルマージを画像生成の拡散モデルに適用。具体的には以下の2段階でモデルを構築しました。

  1. 日本語特化モデルと英語の基盤画像生成モデルを融合
  2. 1で構築したモデルをさらに高速画像生成モデルと融合

その結果できたのが「EvoSDXL-JP」です。同社によると、このモデルは以下の特長を持つといいます。

  • 従来の日本語モデルに比べ推論速度が10倍(40ステップ→4ステップ)
  • 画像の精度を表すFIDスコアが既存モデル中で最高
  • 人間好みの度合いを測るHPSスコアも最高

実際にEvoSDXL-JPで生成したサンプル画像を見ると、「折り紙弁当」「可愛いうさぎ忍者、編みぐるみ」など日本語のプロンプトを正しく理解し、それに沿った画像が高精度に生成されていることが分かります。

教育現場などでの活用に期待

Sakana AIは「日本語対応し高速・低コストな画像生成が可能なEvoSDXL-JPは、生成AIを手軽に試し体験するのに最適。より多くの人に生成AIのメリットを享受してもらえるよう、日本の教育現場などでの使用を期待している」とコメントしています。

同社は研究・教育目的でEvoSDXL-JPをHuggingFaceで一般公開。誰でも気軽に試せるデモも用意しているとのことです。

引用:https://sakana.ai/evosdxl-jp/