公開:

グーグルが画像組み合わせ型AIツールWhiskを公開、直感的な操作で独創的な作品生成が可能に

text: XEXEQ編集部
(記事は執筆時の情報に基づいており、現在では異なる場合があります)


記事の要約

  • GoogleがAIツールWhiskを米国で公開
  • 画像を組み合わせて新たな作品を生成可能
  • GeminiとImagen 3による高度な画像生成を実現

GoogleがAIツールWhiskを公開、複数の画像を組み合わせた作品生成が可能に

Googleは現地時間2024年12月16日、複数の画像を組み合わせることで作品を生成できるAIツール「Whisk(ウィスク)」を米国で公開した。従来の詳細なテキストプロンプトではなく画像を入力として使用することで、デジタルぬいぐるみやエナメルピン、ステッカーなどのユニークな作品を生成することが可能になっている。[1]

Whiskでは被写体用の画像、シーン用の画像、スタイル用の画像をそれぞれ入力することで作品を生成することができる。画像の生成プロセスではGeminiモデルが自動的に画像の詳細な説明を生成し、Googleの最新の画像生成モデルImagen 3がその説明に基づいて新しい画像を作成することで、被写体の本質を捉えた独創的な作品が生み出されるのだ。

アーティストやクリエイターによる初期テストでは、Whiskは従来の画像編集ツールとは異なる新しいタイプのクリエイティブツールとして評価されている。ピクセル単位の正確な編集ではなく、新しい発想を探求するためのツールとして開発され、複数のアイデアを素早く試すことができ、好みの作品をダウンロードすることが可能だ。

Whiskの主な機能まとめ

被写体 シーン スタイル
入力形式 画像 画像 画像
処理モデル Gemini Gemini Imagen 3
生成可能な作品例 デジタルぬいぐるみ エナメルピン ステッカー

生成AIモデルについて

生成AIモデルとは、入力されたデータから新しいコンテンツを生成する人工知能技術のことを指しており、主な特徴として以下のような点が挙げられる。

  • 大規模な学習データに基づく高度な生成能力
  • テキストや画像など多様な形式のコンテンツ生成
  • ユーザーの入力に応じた柔軟な出力調整

WhiskではGeminiモデルとImagen 3という2つの生成AIモデルを組み合わせることで、効果的な画像生成を実現している。Geminiモデルが画像の特徴を言語化し、Imagen 3がその説明を基に新しい画像を生成するという段階的なプロセスによって、ユーザーの意図を反映した創造的な作品制作が可能になっている。

Whiskに関する考察

Whiskの画像入力による生成アプローチは、テキストプロンプトの作成に不慣れなユーザーにとって直感的なインターフェースを提供している点で評価できる。一方で生成された画像が入力画像と異なる身長や体重、髪型、肌の色を持つ可能性があることは、特定の作品制作においては制限となる可能性がある。

今後の課題として、生成される画像の特徴をより細かくコントロールできる機能の実装が望まれる。プロンプトの編集機能は提供されているものの、より直感的な調整方法や、生成される画像の一貫性を保つための機能が追加されることで、クリエイターの制作プロセスがさらに効率化されるだろう。

また、現在は米国限定でのリリースとなっているが、今後はグローバル展開も期待される。多言語対応や各地域の文化的な要素を考慮した生成機能の追加など、より幅広いユーザーのニーズに対応できるツールへと進化することが望まれる。

参考サイト

  1. ^ The Keyword Google. 「Whisk: Visualize and remix ideas using images and AI」. https://blog.google/technology/google-labs/whisk/, (参照 24-12-20).
  2. Google. https://blog.google/intl/ja-jp/

※上記コンテンツはAIで確認しておりますが、間違い等ある場合はコメントよりご連絡いただけますと幸いです。

「AI」に関するコラム一覧「AI」に関するニュース一覧
アーカイブ一覧
AIに関する人気タグ
AIに関するカテゴリ
ブログに戻る

コメントを残す

コメントは公開前に承認される必要があることにご注意ください。