公開:

Stability AiがStable Diffusion 3.5を発表、3つのバリエーションで高品質な画像生成を実現

text: XEXEQ編集部
(記事は執筆時の情報に基づいており、現在では異なる場合があります)


記事の要約

  • Stability AiがStable Diffusion 3.5を発表
  • 3つのバリエーションで構成された最新モデル
  • Stable Diffusion 3.5 Mediumは10月29日提供開始

Stability AiがStable Diffusion 3.5の3つのバリエーションを発表

Stability Aiは最新の画像生成AIモデルStable Diffusion 3.5を2024年10月22日に発表し、Stable Diffusion 3.5 LargeとStable Diffusion 3.5 Large Turboの提供を開始した。両モデルはHugging Faceからダウンロードが可能であり、GitHubでは推論コードも入手可能となっている。[1]

Stable Diffusion 3.5 Largeは80億のパラメータを持ち、優れた画質と迅速な適合性を備えたStable Diffusionファミリーで最も強力なモデルとなっている。Stable Diffusion 3.5 Large Turboは蒸留版として設計され、わずか4ステップで高品質な画像生成が可能となっている。

一方、10月29日に提供が開始されるStable Diffusion 3.5 Mediumは26億のパラメータを持つモデルで、改良されたMMDiT-Xアーキテクチャとトレーニング方法により、コンシューマー向けハードウェアでの使用に最適化されている。0.25から2メガピクセルの解像度で画像を生成することが可能だ。

Stable Diffusion 3.5の機能まとめ

Stable Diffusion 3.5 Large Stable Diffusion 3.5 Large Turbo Stable Diffusion 3.5 Medium
パラメータ数 80億 80億 26億
主な特徴 優れた品質と迅速な適合性 4ステップでの高速生成 コンシューマー向け最適化
解像度 1メガピクセル 1メガピクセル 0.25~2メガピクセル

Query-Key Normalizationについて

Query-Key Normalizationとは、トランスフォーマーブロックに統合された正規化技術のことを指す。主な特徴として、以下のような点が挙げられる。

  • モデルのトレーニングプロセスを改善
  • ファインチューニングの簡素化に貢献
  • 柔軟な基盤構築を実現

Stable Diffusion 3.5では、Query-Key Normalizationの導入によって異なるシードを使用した同じプロンプトからの出力にばらつきが生じる可能性がある。この技術的な特徴は、ベースモデルにおける幅広い知識ベースと多様なスタイルの維持に役立っている。

Stable Diffusion 3.5に関する考察

Stable Diffusion 3.5の画像生成能力は、特に多様な出力とスタイルの面で大きな進歩を遂げている。広範な指示を必要とせず、さまざまな肌の色や特徴を持つ世界を代表するような画像を作成できる点は、AIの公平性と多様性の観点から重要な意味を持つだろう。

今後の課題として、異なるシードによる出力のばらつきがユーザーの意図した結果と異なる可能性がある点が挙げられる。特定性のないプロンプトでは出力の不確実性が増大し、見た目のレベルにばらつきが生じる可能性があるため、プロンプトエンジニアリングの重要性が増すことが予想される。

Stable Diffusion 3.5の開発方針は、カスタマイズ性と効率的なパフォーマンスの両立を目指している。今後はControlNetsのリリースも予定されており、プロフェッショナルな用途に対応する高度なコントロール機能の提供が期待できる。

参考サイト

  1. ^ stability.ai. 「Stable Diffusion 3.5 のご紹介」. https://ja.stability.ai/blog/introducing-stable-diffusion-3-5, (参照 24-10-25).

※上記コンテンツはAIで確認しておりますが、間違い等ある場合はコメントよりご連絡いただけますと幸いです。

「AI」に関するコラム一覧「AI」に関するニュース一覧
ブログに戻る

コメントを残す

コメントは公開前に承認される必要があることにご注意ください。