ZOZO研究所がGPT-4Vのファッション評価性能を分析、SIGGRAPH Asia 2024で論文採択され注目集める

text: XEXEQ編集部
（記事は執筆時の情報に基づいており、現在では異なる場合があります）

PR TIMES より

記事の要約

ZOZO研究所がSIGGRAPH Asia 2024で論文採択
GPT-4Vのファッション美的評価性能を分析
人間の評価との整合性を定量的に検証

ZOZO研究所のGPT-4Vを活用したファッション美的評価の研究

ZOZO研究所は、ファッション美的評価におけるGPT-4Vの性能を検証した論文「An Empirical Analysis of GPT-4V's Performance on Fashion Aesthetic Evaluation」を2024年11月25日に発表した。この研究では、30代女性3名の多様なコーディネートスナップ写真を用いて数百人規模の人間による評価データセットを構築し、GPT-4Vによる評価との整合性を検証している。^[1]

OpenSkillを活用したアノテーションツールを開発し、同一人物の異なるコーディネート写真の比較評価を実施することで、各スナップ写真の似合う度合いを数値化することに成功した。GPT-4Vによる評価では、2枚のスナップ写真の比較において予測の一貫性が失われる場合は引き分けとみなすプロンプトテンプレートを設計している。

実験結果から、GPT-4VはWEAR by ZOZOのいいね数や閲覧数よりも人間の評価と高い整合性を示すことが判明した。一方で、コーディネートの色の多様性が低いデータセットでは人間の評価との整合度が低下する傾向も確認されており、この課題に対する改善の余地が残されている。

GPT-4Vのファッション評価性能まとめ

項目	詳細
研究タイトル	An Empirical Analysis of GPT-4V's Performance on Fashion Aesthetic Evaluation
評価対象	30代女性3名の多様なコーディネートスナップ写真
評価方法	OpenSkillを用いたアノテーションツールによる比較評価
検証内容	人間の評価上位K%と下位K%の分類精度、順位相関
主な結果	WEAR by ZOZOの指標より人間評価との高い整合性を確認
課題点	色の多様性が低いデータセットでの性能低下

マルチモーダル大規模言語モデルについて

マルチモーダル大規模言語モデルとは、テキストだけでなく画像も理解・処理できる高度なAIモデルのことを指す。主な特徴として以下のような点が挙げられる。

テキストと画像を統合的に理解・処理する能力
画像認識と自然言語処理の複合的な判断が可能
人間の主観的評価との高い相関性を持つ

ZOZO研究所の実験では、GPT-4Vというマルチモーダル大規模言語モデルを使用してファッション美的評価を行っている。このモデルは画像とテキストの両方を理解できる特性を活かし、コーディネート写真の評価において人間の判断に近い結果を示すことが実証されている。

GPT-4Vのファッション評価に関する考察

GPT-4Vが従来のいいね数や閲覧数よりも人間の評価と高い整合性を示した点は、パーソナライズされたファッション推薦システムの実現に向けて大きな一歩となる。特に数百人規模の評価データを用いた検証により、GPT-4Vの評価能力の信頼性が定量的に示されたことは、今後のAIによるファッション評価システムの発展に重要な知見をもたらしている。

色の多様性が低いデータセットでの性能低下という課題は、ファッション美的評価の複雑さを示唆している。今後はデータセットの多様性を高めることに加え、文化的背景や個人の好みなども考慮したより精緻な評価システムの開発が求められるだろう。ファインチューニングによる性能改善も検討に値する重要な研究課題となっている。

将来的には、GPT-4Vの評価能力を活用した新しいファッション推薦サービスの登場が期待される。従来の購買履歴や閲覧履歴だけでなく、個々人の体型や好みに合わせた似合う度合いの予測が可能になれば、オンラインショッピングにおける購買体験が大きく向上することだろう。

参考サイト

^ PR TIMES. 「ZOZO研究所、コンピュータグラフィックス分野のトップカンファレンス「SIGGRAPH Asia 2024」にて論文採択 | 株式会社ZOZOのプレスリリース」. https://prtimes.jp/main/html/rd/p/000000309.000096287.html, (参照 24-11-26).

※上記コンテンツはAIで確認しておりますが、間違い等ある場合はコメントよりご連絡いただけますと幸いです。