Stability AiがStable Diffusion 3.5を発表、3つのバリエーションで高品質な画像生成を実現
スポンサーリンク
記事の要約
- Stability AiがStable Diffusion 3.5を発表
- 3つのバリエーションで構成された最新モデル
- Stable Diffusion 3.5 Mediumは10月29日提供開始
スポンサーリンク
Stability AiがStable Diffusion 3.5の3つのバリエーションを発表
Stability Aiは最新の画像生成AIモデルStable Diffusion 3.5を2024年10月22日に発表し、Stable Diffusion 3.5 LargeとStable Diffusion 3.5 Large Turboの提供を開始した。両モデルはHugging Faceからダウンロードが可能であり、GitHubでは推論コードも入手可能となっている。[1]
Stable Diffusion 3.5 Largeは80億のパラメータを持ち、優れた画質と迅速な適合性を備えたStable Diffusionファミリーで最も強力なモデルとなっている。Stable Diffusion 3.5 Large Turboは蒸留版として設計され、わずか4ステップで高品質な画像生成が可能となっている。
一方、10月29日に提供が開始されるStable Diffusion 3.5 Mediumは26億のパラメータを持つモデルで、改良されたMMDiT-Xアーキテクチャとトレーニング方法により、コンシューマー向けハードウェアでの使用に最適化されている。0.25から2メガピクセルの解像度で画像を生成することが可能だ。
Stable Diffusion 3.5の機能まとめ
Stable Diffusion 3.5 Large | Stable Diffusion 3.5 Large Turbo | Stable Diffusion 3.5 Medium | |
---|---|---|---|
パラメータ数 | 80億 | 80億 | 26億 |
主な特徴 | 優れた品質と迅速な適合性 | 4ステップでの高速生成 | コンシューマー向け最適化 |
解像度 | 1メガピクセル | 1メガピクセル | 0.25~2メガピクセル |
スポンサーリンク
Query-Key Normalizationについて
Query-Key Normalizationとは、トランスフォーマーブロックに統合された正規化技術のことを指す。主な特徴として、以下のような点が挙げられる。
- モデルのトレーニングプロセスを改善
- ファインチューニングの簡素化に貢献
- 柔軟な基盤構築を実現
Stable Diffusion 3.5では、Query-Key Normalizationの導入によって異なるシードを使用した同じプロンプトからの出力にばらつきが生じる可能性がある。この技術的な特徴は、ベースモデルにおける幅広い知識ベースと多様なスタイルの維持に役立っている。
Stable Diffusion 3.5に関する考察
Stable Diffusion 3.5の画像生成能力は、特に多様な出力とスタイルの面で大きな進歩を遂げている。広範な指示を必要とせず、さまざまな肌の色や特徴を持つ世界を代表するような画像を作成できる点は、AIの公平性と多様性の観点から重要な意味を持つだろう。
今後の課題として、異なるシードによる出力のばらつきがユーザーの意図した結果と異なる可能性がある点が挙げられる。特定性のないプロンプトでは出力の不確実性が増大し、見た目のレベルにばらつきが生じる可能性があるため、プロンプトエンジニアリングの重要性が増すことが予想される。
Stable Diffusion 3.5の開発方針は、カスタマイズ性と効率的なパフォーマンスの両立を目指している。今後はControlNetsのリリースも予定されており、プロフェッショナルな用途に対応する高度なコントロール機能の提供が期待できる。
参考サイト
- ^ stability.ai. 「Stable Diffusion 3.5 のご紹介」. https://ja.stability.ai/blog/introducing-stable-diffusion-3-5, (参照 24-10-25).
※上記コンテンツはAIで確認しておりますが、間違い等ある場合はコメントよりご連絡いただけますと幸いです。
- YOLO(You Only Look Once)とは?意味をわかりやすく簡単に解説
- XAI(説明可能なAI)とは?意味をわかりやすく簡単に解説
- Word2vecとは?意味をわかりやすく簡単に解説
- WideResNetとは?意味をわかりやすく簡単に解説
- WebSphereとは?意味をわかりやすく簡単に解説
- Watson Visual Recognitionとは?意味をわかりやすく簡単に解説
- W3C(World Wide Web Consortium)とは?意味をわかりやすく簡単に解説
- VGG(Visual Geometry Group)とは?意味をわかりやすく簡単に解説
- VisionTransformerとは?意味をわかりやすく簡単に解説
- WaveNetとは?意味をわかりやすく簡単に解説
- アクティオが無人レンタカーサービスアクスポを函館に展開、建設業界の人手不足解消と業務効率化を実現
- Sasuke Financial Labが明治安田生命と代理店委託契約を締結、デジタル保険代理店としてサービス拡充へ
- パナソニック ホームズが4,000件のビッグデータ解析で間取り提案、暮らしやすさと収納満足度の向上を実現
- AIとVtuber技術で難病患者の声を支援、脊髄小脳変性症患者エンジェルマコが配信開始へ
- ロゴラボ代表が知的財産セミナーで登壇、ブランド許諾管理SaaSの活用事例とノウハウを紹介予定
- TENHOが営業職向け生成AIウェビナーを開催、Difyツールを活用した効率化手法を解説
- FiomとDoooxがZ世代採用戦略ウェビナーを開催、共感型採用手法の実践的ノウハウを提供へ
- アイリックコーポレーションが火災保険RPA見積システムのウェビナーを開催、2025年問題に向けた業務効率化を支援
- revitaが遺伝子解析技術を活用した健康長寿推進セミナーをベトナムで開催、日本での開催も決定
- ToCo社が不登校予防サービスを開始、学校カルテとAIで子どもの心理ケアを実現
スポンサーリンク