・Sakana AIが、日本語プロンプトに対応した高速画像生成モデル「EvoSDXL-JP」を教育目的で一般公開。
・EvoSDXL-JPは、進化的モデルマージにより異なるオープンモデルを融合し、推論速度が10倍、画像精度と人間好みの度合いが最高レベル。
・同社は、EvoSDXL-JPが日本の教育現場などで活用され、より多くの人が生成AIのメリットを享受できることを期待している。
Sakana AIは4月22日、「進化的モデルマージ」を拡散モデルに適用し、日本語プロンプトに対応した高速な画像生成モデル「EvoSDXL-JP」を教育目的で一般公開したと発表しました。
進化的モデルマージとは何か
Sakana AIが提案した「進化的モデルマージ」は、自然界の原理を生かした進化的アルゴリズムを用いて、異なる能力を持つモデルを自動的に融合し、新しい高性能な基盤モデルを構築する手法です。
先日リリースされた日本語の大規模言語モデル「EvoLLM-JP」や画像言語モデル「EvoVLM-JP」は、この手法で言語生成の自己回帰型Transformerモデルを融合したものでした。
日本語対応の高速画像生成モデル「EvoSDXL-JP」
今回Sakana AIは、進化的モデルマージを画像生成の拡散モデルに適用。具体的には以下の2段階でモデルを構築しました。
- 日本語特化モデルと英語の基盤画像生成モデルを融合
- 1で構築したモデルをさらに高速画像生成モデルと融合
その結果できたのが「EvoSDXL-JP」です。同社によると、このモデルは以下の特長を持つといいます。
- 従来の日本語モデルに比べ推論速度が10倍(40ステップ→4ステップ)
- 画像の精度を表すFIDスコアが既存モデル中で最高
- 人間好みの度合いを測るHPSスコアも最高
実際にEvoSDXL-JPで生成したサンプル画像を見ると、「折り紙弁当」「可愛いうさぎ忍者、編みぐるみ」など日本語のプロンプトを正しく理解し、それに沿った画像が高精度に生成されていることが分かります。
教育現場などでの活用に期待
Sakana AIは「日本語対応し高速・低コストな画像生成が可能なEvoSDXL-JPは、生成AIを手軽に試し体験するのに最適。より多くの人に生成AIのメリットを享受してもらえるよう、日本の教育現場などでの使用を期待している」とコメントしています。
同社は研究・教育目的でEvoSDXL-JPをHuggingFaceで一般公開。誰でも気軽に試せるデモも用意しているとのことです。