Stability AIがStable Virtual Cameraを発表、静止画から3Dビデオ生成が可能に

text: XEXEQ編集部
（記事は執筆時の情報に基づいており、現在では異なる場合があります）

IT・テックのコネクトメディア「ゼゼック」
カテゴリ毎のアーカイブ記事一覧
【カテゴリ別】2025年03月のアーカイブ一覧
【2025年03月】AIに関するアーカイブ一覧
【2025年03月17日】AIに関するアーカイブ一覧
Stability AIがStable Virtual Cameraを発表、静止画から3Dビデオ生成が可能に

記事の要約

Stability AIがStable Virtual Cameraを発表
静止画から3Dビデオを生成可能に
非商用ライセンスで研究目的利用可能

Stability AIが発表したStable Virtual Cameraの詳細

Stability AIは最新のマルチビュー拡散モデル「Stable Virtual Camera」を2025年3月19日に発表した。静止画から複雑な再構築やシーン固有の最適化なしで2D画像をリアルな奥行きと遠近感を兼ね備えた没入型3D動画に変換することが可能となり、1枚から最大32枚までの静止画を入力として3Dビデオを生成できるようになった。^[1]

Stable Virtual Cameraの動的なカメラ制御機能により、ユーザーが定義したカメラの軌道に加えて360度やレムニスケート、スパイラル、ドリーズームイン/アウトなど14種類のダイナミックなカメラパスに対応している。この機能により、ユーザーは直感的に3Dビデオの出力をコントロールすることが可能となった。

追加トレーニングなしで1:1、9:16、16:9、カスタムアスペクト比のビデオを生成できる機能も実装されており、最大1,000フレームのビデオで3Dの一貫性を確保することが可能だ。同じ視点に戻った際もシームレスなループとスムーズな遷移を実現し、高品質な3Dビデオ生成を実現している。

Stable Virtual Cameraの機能まとめ

	入力	カメラ制御	出力
対応範囲	1-32枚の静止画	14種類のカメラパス	複数アスペクト比
特徴	自由な枚数設定	ユーザー定義可能	最大1,000フレーム

マルチビュー拡散モデルについて

マルチビュー拡散モデルとは、複数の視点から撮影された画像を用いて3D表現を生成する AI モデルのことを指す。主な特徴として、以下のような点が挙げられる。

複数視点からの画像を学習して3D構造を理解
視点間の一貫性を保ちながら新しい視点を生成
リアルな奥行きと遠近感を再現可能

マルチビュー拡散モデルは、入力された複数の画像から物体やシーンの3D構造を学習し、新しい視点からの見え方を予測することができる技術である。Stable Virtual Cameraではこの技術を応用し、少ない枚数の入力画像から自然な3Dビデオを生成することを可能にしている。

Stable Virtual Cameraに関する考察

Stable Virtual Cameraが実現した静止画からの3Dビデオ生成は、コンテンツ制作のワークフローを大きく変革する可能性を秘めている。従来は高度な3DCGスキルや専門的なソフトウェアが必要だった3Dコンテンツ制作が、一般のクリエイターにも手の届くものとなり、映像制作の民主化が進むことが期待される。

現状のStable Virtual Cameraには人物や動物、水などの動的なテクスチャを含む画像での品質低下という課題が存在している。今後はこれらの対象に対する品質向上や、より複雑なカメラワークへの対応、リアルタイム処理能力の向上などが期待される分野だろう。

研究目的での非商用ライセンスという現在の提供形態から、将来的には商用利用可能なライセンス形態への展開も検討される可能性がある。3Dコンテンツ制作の効率化と品質向上を両立する本技術は、メタバースやAR/VRコンテンツの制作現場での活用も期待できるだろう。