Google DeepMindがGenie 2を発表、テキストや画像から3D仮想世界を生成するAIモデルが実現へ
スポンサーリンク
記事の要約
- Google DeepMindがGenie 2を発表
- テキストや画像から3D仮想世界を生成可能
- キーボードとマウスで操作できる世界を最大1分間生成
スポンサーリンク
Google DeepMindが発表したGenie 2の詳細
Google DeepMindは大規模な動画データセットで学習した自己回帰型拡散モデルのGenie 2を2024年12月4日に発表した。Genie 2は1人称視点やアイソメトリックビュー、3人称視点など多様な視点からの3D仮想世界を生成することが可能であり、生成された仮想世界はキーボードとマウスを使用して最大1分間操作できるようになっている。[1]
Genie 2は物理法則やNPCの行動をリアルにシミュレートすることができ、物体との相互作用や複雑なキャラクターアニメーション、物理演算など様々な機能を備えている。現実世界の画像からも仮想世界を生成することが可能であり、草が風に揺れる様子や川の流れなども表現できるようになった。
AIエージェントのトレーニングや評価、ゲーム開発者やアーティストによる新たな体験のプロトタイピング支援など、多岐にわたる用途での活用が期待されている。また、SIMAエージェントと組み合わせることで、生成された環境内でのタスク実行なども可能になるだろう。
Genie 2の機能まとめ
視点生成 | 物理シミュレーション | インタラクション | |
---|---|---|---|
主な機能 | 1人称/3人称/アイソメトリック | 重力/水/煙/光/反射 | 物体/NPC/キャラクター |
生成時間 | 最大1分間 | 最大1分間 | 最大1分間 |
スポンサーリンク
foundation world modelについて
foundation world modelとは、3D仮想世界を生成・シミュレートできる基盤モデルのことを指す。主な特徴として、以下のような点が挙げられる。
- テキストや画像から多様な3D環境を生成
- 物理法則に基づいたシミュレーションが可能
- ユーザーの入力に応じてインタラクティブに動作
Google DeepMindのGenie 2は、大規模な動画データセットを用いて学習された自己回帰型拡散モデルとしてfoundation world modelを実現している。生成された3D仮想世界は物理演算やNPCの行動など複雑なシミュレーションが可能で、AIエージェントの学習環境としても活用できる。
Genie 2に関する考察
Genie 2の3D仮想世界生成技術は、ゲーム開発やシミュレーション分野に革新的な可能性をもたらすことが期待される。特にAIエージェントの学習環境として、現実世界では実現が困難な多様なシナリオを安全に提供できる点は画期的だ。一方で、生成時間が最大1分間に制限されている点は実用面での課題となるだろう。
今後は生成時間の延長や、より複雑なインタラクションの実現が期待される。特にマルチプレイヤー環境の生成や、より高度な物理シミュレーションの実装によって、活用範囲が大きく広がる可能性がある。また、現実世界の画像からの3D環境生成精度の向上も重要な課題となるだろう。
AIエージェントの学習環境としての活用には、生成される環境の一貫性や再現性の確保が重要となる。環境生成の制御性を高め、特定の学習シナリオに適した環境を安定して生成できるよう改良を重ねることで、より実践的な学習環境の構築が可能になるはずだ。
参考サイト
- ^ Google DeepMind. 「Genie 2: A large-scale foundation world model - Google DeepMind」. https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/, (参照 24-12-06).
- Google. https://blog.google/intl/ja-jp/
※上記コンテンツはAIで確認しておりますが、間違い等ある場合はコメントよりご連絡いただけますと幸いです。
- YOLO(You Only Look Once)とは?意味をわかりやすく簡単に解説
- XAI(説明可能なAI)とは?意味をわかりやすく簡単に解説
- Word2vecとは?意味をわかりやすく簡単に解説
- WideResNetとは?意味をわかりやすく簡単に解説
- WebSphereとは?意味をわかりやすく簡単に解説
- Watson Discoveryとは?意味をわかりやすく簡単に解説
- W3C(World Wide Web Consortium)とは?意味をわかりやすく簡単に解説
- VisionTransformerとは?意味をわかりやすく簡単に解説
- WaveNetとは?意味をわかりやすく簡単に解説
- Watson Visual Recognitionとは?意味をわかりやすく簡単に解説
- 【CVE-2024-8817】PDF-XChange Editor 10.3.0.386にU3Dファイル解析の脆弱性、任意のコード実行が可能に
- 【CVE-2024-8815】PDF-XChange Editor 10.3.0.386にメモリ破損の脆弱性、遠隔コード実行のリスクが発生
- 【CVE-2024-7510】Trimble SketchUp 22.0.354.0にuse-after-free脆弱性、リモートコード実行の危険性が浮上
- ユーキャンがChatGPT講座を新規開講、基礎から応用まで全84レッスンで効率的なAIスキル習得を実現
- GoogleがWorkspaceにPDFの電子署名機能を追加、業務効率の向上とペーパーレス化を促進
- MicrosoftがFluid Framework 2の機能を強化、SharedTreeとAI連携で開発者の生産性向上へ
- AWSがAmazon Bedrock Marketplaceを発表、100以上の生成AI基盤モデルを単一プラットフォームで提供開始
- AWSがAmazon Bedrockに新機能を追加、プロンプトキャッシングとインテリジェントルーティングでコストとパフォーマンスを最適化
- MetaがルイジアナにAIデータセンターを建設、100億ドル規模の投資でオープンソースLLM開発を加速
- DNPが審査業務向けAIサービスに新機能を追加、生成AI活用で最大80%の業務効率化を実現へ
スポンサーリンク