・Stability AIが最新の画像生成モデル「Stable Diffusion 3 Medium」をオープンリリースした。
・SD3 Mediumは高品質の画像生成、複雑なプロンプトの理解、ノイズのないテキスト生成などの特徴を持ち、標準的なGPUで高いパフォーマンスを発揮する。
・このモデルは無償の非商用ライセンスで提供され、APIやアプリケーションからも手軽に利用可能である。

AIによる画像生成の第一人者であるStability AIが、最新かつ最も高度なテキストから画像を生成するオープンモデル「Stable Diffusion 3 Medium」を発表しました。同社は生成AIの民主化に尽力しており、今回のリリースもその一環となっています。

SD3 Mediumの特徴

Stable Diffusion 3 Mediumは20億のパラメータから構成される大規模モデルですが、そのサイズは比較的小さく、個人向けシステムや企業のGPUでも十分動作可能です。このモデルの主な特徴は以下の通りです。

  • フォトリアリズム:手や顔の不自然さを克服し、複雑なワークフローなしで高品質の画像生成が可能
  • プロンプトの忠実さ:空間的関係や構成要素、動作、スタイルを含む複雑なプロンプトを理解
  • テキスト生成:Diffusion Transformer architectureにより、ノイズのないテキスト生成を実現
  • リソース効率:標準的なコンシューマーGPUで高いパフォーマンスを発揮
  • ファインチューニング:少量のデータから微妙なディテールを学習でき、カスタマイズに最適

また、NVIDIAとのコラボレーションにより、NVIDIA GPUとTensorRTを活用したパフォーマンス強化も図られています。TensorRTで最適化されたバージョンでは50%ものパフォーマンス向上が見込めるとのことです。

オープンでアクセスしやすいモデル

Stability AIは一貫してオープンな生成AIを追求しており、SD3 Mediumも無償の非商用ライセンスでリリースされました。個人利用者はHugging Faceからモデルをダウンロードでき、アーティストやデザイナー、開発者向けには低コストのクリエイターライセンスも用意されています。

商用利用を検討されている方は、同社にお問い合わせいただくことで、エンタープライズライセンスを取得可能です。これにより、利用ガイドラインを遵守しながらモデルの可能性を最大限に活用できるようになります。

手軽に試せるAPIとアプリケーション

SD3 Mediumはすでに同社のAPIで利用可能となっており、Stable AssistantやStable Artisanなどのアプリケーションからも手軽にお試しいただけます。ぜひ3日間の無料トライアルを活用して、その性能をご体験ください。