グーグルが画像組み合わせ型AIツールWhiskを公開、直感的な操作で独創的な作品生成が可能に
スポンサーリンク
記事の要約
- GoogleがAIツールWhiskを米国で公開
- 画像を組み合わせて新たな作品を生成可能
- GeminiとImagen 3による高度な画像生成を実現
スポンサーリンク
GoogleがAIツールWhiskを公開、複数の画像を組み合わせた作品生成が可能に
Googleは現地時間2024年12月16日、複数の画像を組み合わせることで作品を生成できるAIツール「Whisk(ウィスク)」を米国で公開した。従来の詳細なテキストプロンプトではなく画像を入力として使用することで、デジタルぬいぐるみやエナメルピン、ステッカーなどのユニークな作品を生成することが可能になっている。[1]
Whiskでは被写体用の画像、シーン用の画像、スタイル用の画像をそれぞれ入力することで作品を生成することができる。画像の生成プロセスではGeminiモデルが自動的に画像の詳細な説明を生成し、Googleの最新の画像生成モデルImagen 3がその説明に基づいて新しい画像を作成することで、被写体の本質を捉えた独創的な作品が生み出されるのだ。
アーティストやクリエイターによる初期テストでは、Whiskは従来の画像編集ツールとは異なる新しいタイプのクリエイティブツールとして評価されている。ピクセル単位の正確な編集ではなく、新しい発想を探求するためのツールとして開発され、複数のアイデアを素早く試すことができ、好みの作品をダウンロードすることが可能だ。
Whiskの主な機能まとめ
被写体 | シーン | スタイル | |
---|---|---|---|
入力形式 | 画像 | 画像 | 画像 |
処理モデル | Gemini | Gemini | Imagen 3 |
生成可能な作品例 | デジタルぬいぐるみ | エナメルピン | ステッカー |
スポンサーリンク
生成AIモデルについて
生成AIモデルとは、入力されたデータから新しいコンテンツを生成する人工知能技術のことを指しており、主な特徴として以下のような点が挙げられる。
- 大規模な学習データに基づく高度な生成能力
- テキストや画像など多様な形式のコンテンツ生成
- ユーザーの入力に応じた柔軟な出力調整
WhiskではGeminiモデルとImagen 3という2つの生成AIモデルを組み合わせることで、効果的な画像生成を実現している。Geminiモデルが画像の特徴を言語化し、Imagen 3がその説明を基に新しい画像を生成するという段階的なプロセスによって、ユーザーの意図を反映した創造的な作品制作が可能になっている。
Whiskに関する考察
Whiskの画像入力による生成アプローチは、テキストプロンプトの作成に不慣れなユーザーにとって直感的なインターフェースを提供している点で評価できる。一方で生成された画像が入力画像と異なる身長や体重、髪型、肌の色を持つ可能性があることは、特定の作品制作においては制限となる可能性がある。
今後の課題として、生成される画像の特徴をより細かくコントロールできる機能の実装が望まれる。プロンプトの編集機能は提供されているものの、より直感的な調整方法や、生成される画像の一貫性を保つための機能が追加されることで、クリエイターの制作プロセスがさらに効率化されるだろう。
また、現在は米国限定でのリリースとなっているが、今後はグローバル展開も期待される。多言語対応や各地域の文化的な要素を考慮した生成機能の追加など、より幅広いユーザーのニーズに対応できるツールへと進化することが望まれる。
参考サイト
- ^ The Keyword Google. 「Whisk: Visualize and remix ideas using images and AI」. https://blog.google/technology/google-labs/whisk/, (参照 24-12-20).
- Google. https://blog.google/intl/ja-jp/
※上記コンテンツはAIで確認しておりますが、間違い等ある場合はコメントよりご連絡いただけますと幸いです。
- YOLO(You Only Look Once)とは?意味をわかりやすく簡単に解説
- XAI(説明可能なAI)とは?意味をわかりやすく簡単に解説
- Word2vecとは?意味をわかりやすく簡単に解説
- WideResNetとは?意味をわかりやすく簡単に解説
- WebSphereとは?意味をわかりやすく簡単に解説
- Watson Discoveryとは?意味をわかりやすく簡単に解説
- W3C(World Wide Web Consortium)とは?意味をわかりやすく簡単に解説
- VisionTransformerとは?意味をわかりやすく簡単に解説
- WaveNetとは?意味をわかりやすく簡単に解説
- Watson Visual Recognitionとは?意味をわかりやすく簡単に解説
- Google WorkspaceがカスタムOIDCプロファイルでのSSO設定機能を追加、クラウドアプリケーションのアクセス管理が柔軟に
- Google Workspaceが管理者向けアカウントリカバリー設定を追加、プライバシー規制対応とセキュリティ強化を実現
- GoogleがAppSheet Admin Consoleを一般提供開始、Workspace管理者のアプリ管理機能が大幅に向上
- YouTubeが第三者企業向けAIトレーニング機能を発表、クリエイターによる使用可否の選択が可能に
- GoogleがAI動画生成Veo 2と画像生成Imagen 3を発表、4K動画や多様なアートスタイルの生成が可能に
- GitHubがVisual Studio向けCopilot Freeを公開、AIによる開発効率が25%向上へ
- MicrosoftがWindows 11 Insider Preview Build 26120.2705をリリース、多言語リアルタイム翻訳機能の実装により国際コミュニケーションが向上
- GoogleがProject IDXにGemini統合のInteractive Chatを追加、自然言語による開発効率の向上を実現
- Amazonがふるさと納税サービスを開始、全国約1,000自治体が参画し返礼品の最短翌日配送に対応
スポンサーリンク