ZOZO研究所がGPT-4Vのファッション評価性能を分析、SIGGRAPH Asia 2024で論文採択され注目集める
PR TIMES より
スポンサーリンク
記事の要約
- ZOZO研究所がSIGGRAPH Asia 2024で論文採択
- GPT-4Vのファッション美的評価性能を分析
- 人間の評価との整合性を定量的に検証
スポンサーリンク
ZOZO研究所のGPT-4Vを活用したファッション美的評価の研究
ZOZO研究所は、ファッション美的評価におけるGPT-4Vの性能を検証した論文「An Empirical Analysis of GPT-4V's Performance on Fashion Aesthetic Evaluation」を2024年11月25日に発表した。この研究では、30代女性3名の多様なコーディネートスナップ写真を用いて数百人規模の人間による評価データセットを構築し、GPT-4Vによる評価との整合性を検証している。[1]
OpenSkillを活用したアノテーションツールを開発し、同一人物の異なるコーディネート写真の比較評価を実施することで、各スナップ写真の似合う度合いを数値化することに成功した。GPT-4Vによる評価では、2枚のスナップ写真の比較において予測の一貫性が失われる場合は引き分けとみなすプロンプトテンプレートを設計している。
実験結果から、GPT-4VはWEAR by ZOZOのいいね数や閲覧数よりも人間の評価と高い整合性を示すことが判明した。一方で、コーディネートの色の多様性が低いデータセットでは人間の評価との整合度が低下する傾向も確認されており、この課題に対する改善の余地が残されている。
GPT-4Vのファッション評価性能まとめ
項目 | 詳細 |
---|---|
研究タイトル | An Empirical Analysis of GPT-4V's Performance on Fashion Aesthetic Evaluation |
評価対象 | 30代女性3名の多様なコーディネートスナップ写真 |
評価方法 | OpenSkillを用いたアノテーションツールによる比較評価 |
検証内容 | 人間の評価上位K%と下位K%の分類精度、順位相関 |
主な結果 | WEAR by ZOZOの指標より人間評価との高い整合性を確認 |
課題点 | 色の多様性が低いデータセットでの性能低下 |
スポンサーリンク
マルチモーダル大規模言語モデルについて
マルチモーダル大規模言語モデルとは、テキストだけでなく画像も理解・処理できる高度なAIモデルのことを指す。主な特徴として以下のような点が挙げられる。
- テキストと画像を統合的に理解・処理する能力
- 画像認識と自然言語処理の複合的な判断が可能
- 人間の主観的評価との高い相関性を持つ
ZOZO研究所の実験では、GPT-4Vというマルチモーダル大規模言語モデルを使用してファッション美的評価を行っている。このモデルは画像とテキストの両方を理解できる特性を活かし、コーディネート写真の評価において人間の判断に近い結果を示すことが実証されている。
GPT-4Vのファッション評価に関する考察
GPT-4Vが従来のいいね数や閲覧数よりも人間の評価と高い整合性を示した点は、パーソナライズされたファッション推薦システムの実現に向けて大きな一歩となる。特に数百人規模の評価データを用いた検証により、GPT-4Vの評価能力の信頼性が定量的に示されたことは、今後のAIによるファッション評価システムの発展に重要な知見をもたらしている。
色の多様性が低いデータセットでの性能低下という課題は、ファッション美的評価の複雑さを示唆している。今後はデータセットの多様性を高めることに加え、文化的背景や個人の好みなども考慮したより精緻な評価システムの開発が求められるだろう。ファインチューニングによる性能改善も検討に値する重要な研究課題となっている。
将来的には、GPT-4Vの評価能力を活用した新しいファッション推薦サービスの登場が期待される。従来の購買履歴や閲覧履歴だけでなく、個々人の体型や好みに合わせた似合う度合いの予測が可能になれば、オンラインショッピングにおける購買体験が大きく向上することだろう。
参考サイト
- ^ PR TIMES. 「ZOZO研究所、コンピュータグラフィックス分野のトップカンファレンス「SIGGRAPH Asia 2024」にて論文採択 | 株式会社ZOZOのプレスリリース」. https://prtimes.jp/main/html/rd/p/000000309.000096287.html, (参照 24-11-26).
※上記コンテンツはAIで確認しておりますが、間違い等ある場合はコメントよりご連絡いただけますと幸いです。
- YOLO(You Only Look Once)とは?意味をわかりやすく簡単に解説
- XAI(説明可能なAI)とは?意味をわかりやすく簡単に解説
- Word2vecとは?意味をわかりやすく簡単に解説
- WideResNetとは?意味をわかりやすく簡単に解説
- WebSphereとは?意味をわかりやすく簡単に解説
- Watson Discoveryとは?意味をわかりやすく簡単に解説
- W3C(World Wide Web Consortium)とは?意味をわかりやすく簡単に解説
- VisionTransformerとは?意味をわかりやすく簡単に解説
- WaveNetとは?意味をわかりやすく簡単に解説
- Watson Visual Recognitionとは?意味をわかりやすく簡単に解説
- MicrosoftがVSCode向けGitHub Copilot for Azureを発表、Azure開発の効率化とIDE内での完結を実現
- NTTドコモがSUPERNOVAと業務提携を開始、生成AIサービス「Stella AI」の提供でAI活用を促進
- ゼロフィールド代表がMINERS UNITED社のデータセンターを視察、GPUサーバーの米国展開強化へ向け協議
- デジタルヒューマン株式会社とNSSOLが玉置社長のデジタルヒューマンを開発、リアルタイム対話と多言語対応でDX推進に貢献
- アローリンクがLINE採用ツール「採マネnext≫」へリブランディング、1,000社突破の実績を機に採用支援を強化
- AI搭載自撮り棒が登場、アプリ不要の360度自動追尾機能とジンバルロボットで撮影の安定性が向上
- DXYZの顔認証プラットフォームFreeiDが東ティモールで初の海外導入、常石造船グループの人事システムと連携し勤怠管理の効率化を実現
- Fairy Devicesが防衛省向けにオフライン対応AI通訳装置を納入、セキュアな多言語コミュニケーションを実現
- ポーラ化成工業が暑熱対策AIカメラの実証試験結果を発表、作業員の健康管理支援に成果
- 80&CompanyとOCT-PATHが生成AI研究部門を新設し、営業支援など3つの新サービスをリリース、業務効率化を実現へ
スポンサーリンク