グーグルが画像組み合わせ型AIツールWhiskを公開、直感的な操作で独創的な作品生成が可能に

text: XEXEQ編集部
（記事は執筆時の情報に基づいており、現在では異なる場合があります）

IT・テックのコネクトメディア「ゼゼック」
カテゴリ毎のアーカイブ記事一覧
【カテゴリ別】2024年12月のアーカイブ一覧
【2024年12月】AIに関するアーカイブ一覧
【2024年12月17日】AIに関するアーカイブ一覧
グーグルが画像組み合わせ型AIツールWhiskを公開、直感的な操作で独創的な作品生成が可能に

記事の要約
GoogleがAIツールWhiskを公開、複数の画像を組み合わせた作品生成が可能に
Whiskの主な機能まとめ
生成AIモデルについて
Whiskに関する考察
参考サイト

記事の要約

GoogleがAIツールWhiskを米国で公開
画像を組み合わせて新たな作品を生成可能
GeminiとImagen 3による高度な画像生成を実現

GoogleがAIツールWhiskを公開、複数の画像を組み合わせた作品生成が可能に

Googleは現地時間2024年12月16日、複数の画像を組み合わせることで作品を生成できるAIツール「Whisk（ウィスク）」を米国で公開した。従来の詳細なテキストプロンプトではなく画像を入力として使用することで、デジタルぬいぐるみやエナメルピン、ステッカーなどのユニークな作品を生成することが可能になっている。^[1]

Whiskでは被写体用の画像、シーン用の画像、スタイル用の画像をそれぞれ入力することで作品を生成することができる。画像の生成プロセスではGeminiモデルが自動的に画像の詳細な説明を生成し、Googleの最新の画像生成モデルImagen 3がその説明に基づいて新しい画像を作成することで、被写体の本質を捉えた独創的な作品が生み出されるのだ。

アーティストやクリエイターによる初期テストでは、Whiskは従来の画像編集ツールとは異なる新しいタイプのクリエイティブツールとして評価されている。ピクセル単位の正確な編集ではなく、新しい発想を探求するためのツールとして開発され、複数のアイデアを素早く試すことができ、好みの作品をダウンロードすることが可能だ。

Whiskの主な機能まとめ

	被写体	シーン	スタイル
入力形式	画像	画像	画像
処理モデル	Gemini	Gemini	Imagen 3
生成可能な作品例	デジタルぬいぐるみ	エナメルピン	ステッカー

生成AIモデルについて

生成AIモデルとは、入力されたデータから新しいコンテンツを生成する人工知能技術のことを指しており、主な特徴として以下のような点が挙げられる。

大規模な学習データに基づく高度な生成能力
テキストや画像など多様な形式のコンテンツ生成
ユーザーの入力に応じた柔軟な出力調整

WhiskではGeminiモデルとImagen 3という2つの生成AIモデルを組み合わせることで、効果的な画像生成を実現している。Geminiモデルが画像の特徴を言語化し、Imagen 3がその説明を基に新しい画像を生成するという段階的なプロセスによって、ユーザーの意図を反映した創造的な作品制作が可能になっている。