公開:

GoogleのWhisk、画像プロンプトで直感的に生成可能な新たなAIツールを日本で提供開始

text: XEXEQ編集部
(記事は執筆時の情報に基づいており、現在では異なる場合があります)


記事の要約

  • Googleが新たな画像生成AI「Whisk」を発表
  • 日本を含む100以上の国と地域で試験運用版を提供開始
  • 日本文化インスピレーションの新テンプレートを追加

Googleが新たな画像生成AI「Whisk」を日本で提供開始

Googleは2月12日(現地時間)、新たなコンセプトの画像生成AI「Whisk」の試験運用版を、日本を含む100以上の国と地域で順次提供開始すると発表した。画像をプロンプトとして使用する画像生成AIであり、詳細なテキストプロンプトを必要とせずに画像を生成することが可能になっている。[1]

Whiskは、モデル、シーン、スタイルごとに自分の好きな画像を入力し、それらを組み合わせて選択したテンプレートに合わせたオリジナルの画像を生成できる仕組みを採用している。日本でのサービス提供に合わせて、「カプセルトイ」と「お弁当」という日本文化からインスパイアされた新しい2つのテンプレートも追加された。

画像生成の過程では、GeminiがWhiskに入力された画像の詳細なキャプションを自動的に作成し、その説明をGoogleの最新の画像生成モデルであるImagen 3に入力する仕組みを採用している。入力したモデルを正確に複製するのではなく、被写体の本質を捉えることで、モデル、シーン、スタイルを新しい方法で組み合わせることを実現した。

Whiskの主な機能まとめ

基本機能 生成プロセス テンプレート
特徴 画像プロンプト入力 Geminiによるキャプション生成 日本向け専用テンプレート
利点 テキストプロンプト不要 Imagen 3による画像生成 カプセルトイ・お弁当対応

画像生成AIについて

画像生成AIとは、人工知能技術を活用して新しい画像を作り出すシステムのことを指す。主な特徴として、以下のような点が挙げられる。

  • テキストや画像から新しい画像を生成できる
  • 機械学習モデルを使用して画像の特徴を理解
  • 多様なスタイルや表現方法を組み合わせ可能

現代の画像生成AIは、複数のAIモデルを組み合わせることで高度な画像生成を実現している。Whiskの場合、Geminiによる画像理解とImagen 3による画像生成を組み合わせることで、より直感的な操作性と高品質な出力を両立している。

Whiskに関する考察

Whiskが採用している画像プロンプトベースのアプローチは、テキストプロンプトの作成に不慣れなユーザーにとって大きな利点となるだろう。従来の画像生成AIでは、望む結果を得るために適切なプロンプトを作成する必要があり、これが多くのユーザーにとって障壁となっていた。

今後の課題として、生成される画像の一貫性の確保が挙げられる。現状ではモデルの身長や体重、髪型、肌の色などが入力画像と異なる場合があり、ユーザーの期待と生成結果にギャップが生じる可能性がある。この課題に対しては、プロンプトの編集機能を活用した細かな調整が解決策となるだろう。

将来的には、より多様な日本文化に特化したテンプレートの追加が期待される。現在提供されている「カプセルトイ」と「お弁当」に加えて、和服や日本の伝統工芸など、さらに幅広い文化要素を取り入れることで、日本のユーザーにとってより魅力的なツールとなる可能性を秘めている。

参考サイト

  1. ^ The Keyword Google. 「Whisk: 頭にあるアイデアをパッとかたちに」. https://blog.google/intl/ja-jp/company-news/technology/whisk/, (参照 25-02-14).
  2. Google. https://blog.google/intl/ja-jp/

※上記コンテンツはAIで確認しておりますが、間違い等ある場合はコメントよりご連絡いただけますと幸いです。

「AI」に関するコラム一覧「AI」に関するニュース一覧
アーカイブ一覧
AIに関する人気タグ
AIに関するカテゴリ
ブログに戻る

コメントを残す

コメントは公開前に承認される必要があることにご注意ください。