Google DeepMindがGenie 2を発表、テキストや画像から3D仮想世界を生成するAIモデルが実現へ

text: XEXEQ編集部
（記事は執筆時の情報に基づいており、現在では異なる場合があります）

IT・テックのコネクトメディア「ゼゼック」
カテゴリ毎のアーカイブ記事一覧
【カテゴリ別】2024年12月のアーカイブ一覧
【2024年12月】AIに関するアーカイブ一覧
【2024年12月05日】AIに関するアーカイブ一覧
Google DeepMindがGenie 2を発表、テキストや画像から3D仮想世界を生成するAIモデルが実現へ

記事の要約

Google DeepMindがGenie 2を発表
テキストや画像から3D仮想世界を生成可能
キーボードとマウスで操作できる世界を最大1分間生成

Google DeepMindが発表したGenie 2の詳細

Google DeepMindは大規模な動画データセットで学習した自己回帰型拡散モデルのGenie 2を2024年12月4日に発表した。Genie 2は1人称視点やアイソメトリックビュー、3人称視点など多様な視点からの3D仮想世界を生成することが可能であり、生成された仮想世界はキーボードとマウスを使用して最大1分間操作できるようになっている。^[1]

Genie 2は物理法則やNPCの行動をリアルにシミュレートすることができ、物体との相互作用や複雑なキャラクターアニメーション、物理演算など様々な機能を備えている。現実世界の画像からも仮想世界を生成することが可能であり、草が風に揺れる様子や川の流れなども表現できるようになった。

AIエージェントのトレーニングや評価、ゲーム開発者やアーティストによる新たな体験のプロトタイピング支援など、多岐にわたる用途での活用が期待されている。また、SIMAエージェントと組み合わせることで、生成された環境内でのタスク実行なども可能になるだろう。

Genie 2の機能まとめ

	視点生成	物理シミュレーション	インタラクション
主な機能	1人称/3人称/アイソメトリック	重力/水/煙/光/反射	物体/NPC/キャラクター
生成時間	最大1分間	最大1分間	最大1分間

foundation world modelについて

foundation world modelとは、3D仮想世界を生成・シミュレートできる基盤モデルのことを指す。主な特徴として、以下のような点が挙げられる。

テキストや画像から多様な3D環境を生成
物理法則に基づいたシミュレーションが可能
ユーザーの入力に応じてインタラクティブに動作

Google DeepMindのGenie 2は、大規模な動画データセットを用いて学習された自己回帰型拡散モデルとしてfoundation world modelを実現している。生成された3D仮想世界は物理演算やNPCの行動など複雑なシミュレーションが可能で、AIエージェントの学習環境としても活用できる。

Genie 2に関する考察

Genie 2の3D仮想世界生成技術は、ゲーム開発やシミュレーション分野に革新的な可能性をもたらすことが期待される。特にAIエージェントの学習環境として、現実世界では実現が困難な多様なシナリオを安全に提供できる点は画期的だ。一方で、生成時間が最大1分間に制限されている点は実用面での課題となるだろう。

今後は生成時間の延長や、より複雑なインタラクションの実現が期待される。特にマルチプレイヤー環境の生成や、より高度な物理シミュレーションの実装によって、活用範囲が大きく広がる可能性がある。また、現実世界の画像からの3D環境生成精度の向上も重要な課題となるだろう。

AIエージェントの学習環境としての活用には、生成される環境の一貫性や再現性の確保が重要となる。環境生成の制御性を高め、特定の学習シナリオに適した環境を安定して生成できるよう改良を重ねることで、より実践的な学習環境の構築が可能になるはずだ。