
こんにちは。データサイエンス部データサイエンスブロック2の荒木・西山・桐島です。我々のチームでは、AIやデータサイエンスを活用したプロダクト開発のため、研究開発に取り組んでいます。
今回は、ZOZO NEXTのメンバーとともに2025年7月29日(火)から8月1日(金)にかけて国立京都国際会館で開催された画像の認識・理解シンポジウム (MIRU) 2025に参加しました。本記事では、MIRU2025でのZOZO・ZOZO NEXTメンバーの取り組み、MIRU2025の様子や参加メンバーの気になった発表を報告します。

MIRU2025
MIRUとは、画像処理分野における国内最大規模のシンポジウムです。毎年、コンピュータビジョンをはじめとしたさまざまな画像系の学術分野についての発表や、それに関する議論が活発に行われています。
2025年の今回は、京都市の国立京都国際会館において開催されました。2020年から2024年までは感染症対策として、参加費無料の学生向け遠隔聴講の枠が設けられていましたが、今年はこれが廃止され、完全オフラインでの開催となりました。
年々、MIRUの参加者数は増加傾向にあり、今年は1,479名が参加し、会場が大きな賑わいを見せていました。これは、先述の遠隔聴講枠の人数を除くと、過去最大の参加者数です。発表件数も2020年から大きく増え続け、今年は726件の発表がありました。今年も、ZOZO NEXTはMIRU2025にゴールドスポンサーとして協賛いたしました。
昨年のMIRU2024に参加した際のレポートは以下の記事をご覧ください。
企業展示

企業展示ブースでは、ZOZO NEXTの取り組みをポスター形式でご紹介しました。ZOZOの多角的なファッションサービスと多様なデータ資産に加え、機械学習や最適化問題の実サービスへの応用事例、そして、ZOZO Researchが近年発表した論文についてご説明しました。今年も、多くの方々からご関心をお寄せいただき、お話をさせていただけたことを大変嬉しく感じています。ブースにお越しいただいた皆さま、誠にありがとうございました。展示していたポスターはこちらです。




また、ブースでご案内したZOZOおよびZOZO NEXTの求人はこちらからご覧いただけます。
全体の動向
発表の傾向を読むことで、画像処理分野における最新の研究トレンドを横断的に把握できるのもMIRUの良さのひとつです。昨年のMIRUでは、生成モデルや基盤モデル、大規模モデルを活用した研究が多く見られました。
今年のMIRUは、引き続きこれらの研究トレンドが主流でありつつも、CLIPをはじめとする視覚言語モデル (Vision Language Model; VLM) の活用が特に多かったように感じます。また、下流タスクへの応用も積極的に行われており、公開データセットを使うだけでなく、自らデータセットを作成、あるいは公開データセットを拡張して、具体的な応用研究に取り組む例がかなり多く見られました。ほかにも、生成モデルの実用性とリスク管理、制御性や安全性の向上に関する研究も見られました。
一方で、3D再構成の研究も去年に引き続き盛んに研究されています。2024年はNeural Radiance Fieldsをベースとした研究が主流でしたが、今年は3D Gaussian Splattingを活用した研究が目立ちました。また、光飛行時間センサやイベントベースカメラを用いた応用研究も多く見られ、コンピュータを用いて実世界をより深く、より精細に「見る」ことができるようになってきたと感じました。
ZOZO Researchメンバーの発表
インタラクティブセッションにて、ZOZO Researchから4件の研究をポスター形式で発表しました。各研究の要約は以下の通りです。
[IS2-067] 曖昧なファッション表現を扱う画像検索のための一般投稿データ対応法の検討
堀田南(早大), 清水良太郎 (ZOZO研究所、 早大), 平川優伎 (ZOZO研究所), 後藤正幸 (早大)
オンラインのコーデ検索などに用いられる曖昧な表現(例:カジュアル、フォーマル、かわいい等)をより正確に扱うため、従来はスタジオ撮影画像のみ対応していたFashion Intelligence Systemを、一般ユーザによって投稿された画像にも対応させる手法を提案します。
まず、Self-Correction for Human Parsingによる背景除去と重み付きプーリングで、撮影環境のばらつきに起因するノイズの影響を低減して、服装の視覚的特徴をより頑健に抽出します。次に、LLMで一般投稿画像のタグを補完し、アイテム名など具体語を追加して学習データを強化します。さらに、一般投稿由来の特徴に全結合層による補正を適用し、スタジオ画像の埋め込み分布へ近づけることでドメインギャップを軽減します。
スタジオ画像31,495枚、一般投稿画像40,092枚、3,530タグで検証し、CLIP-ViT-B/16を用いたVSEで学習した結果、曖昧表現に対する画像検索・並べ替えが機能し、「オフィスカジュアル」や「ママコーデ」などの表現解釈が可能であることを確認しました。LLMによるタグ情報の補完は、具体的にどのようなアイテムが用いられているかを的確に示していることがわかりますが、雰囲気に関する曖昧な語(例:ガーリー)ではユーザ付与タグと一致しない場合があり、オリジナルのタグ情報との併用が有効と示唆されました。t-SNEの可視化では、両ドメインの分布が部分的に重なり、ギャップが縮小したものの完全な統合には至らず、検索結果の偏りが残ることがわかりました。
[IS2-075] 置換不変ニューラルネットワークによる集合データマッチングのための全身画像を用いた事前学習
秦淇策(早大), 清水良太郎 (ZOZO研究所、 早大), 平川優伎 (ZOZO研究所), シモセラ・エドガー (早大)
ファッションコーディネート提案で重要な「集合データマッチング(順序に依存しないアイテム集合の調和性推定)」において、収集コストの高いラベル付きアイテム画像集合データの代替として、SNS上の全身コーデ画像をアイテム単位に分割して事前学習に使う方法を提案します。
提案パイプラインでは、セマンティックセグメンテーションを用いてトップス・ボトムス・靴などを切り出し、ResNet-18で特徴抽出後、Set Transformerで集合表現を学習します。学習タスクは、与えられたアイテム集合が互換性を持つかを判定する二値分類問題として定式化し、分類精度(正解率)によって評価されます。
実験では、ファッションデータセットIQON3000を用いた下流タスクでは事前学習の有無にかかわらず精度が低く、タスク設計やモデルがドメイン特性に適合していない可能性が示唆されました。そこで、より詳細な分析のために、難易度を低減させたトイデータによる実験を実施として、tripletMNISTで事前学習したモデルをMNIST/MNIST-Mで評価したところ、MNISTでは分類精度が向上、MNIST-Mでもわずかな精度向上が確認できました。この結果は、提案手法は下流タスク自体の難易度に適合しきれていない一方、視覚的な互換性の特徴を効果的に獲得できること、集合構造を持つデータに対してより一般化可能な初期表現を学習できることを示唆しています。
[IS2-139] Masked Language Prompting for Data Augmentation in Few-shot Style Recognition
Yuki Hirakawa, Ryotaro Shimizu (ZOZO Research)
ファッションスタイル認識におけるラベル付きデータの不足を補うために、視覚的に多様ながらスタイルに一貫性をもたせた画像を生成するMasked Language Prompting (MLP) という新しい生成的データ拡張手法を提案します。
ファッションスタイルに関する研究は、主観的・文化的な要素が強く、ラベル付けを困難にしています。従来の画像ベースのデータ拡張手法は、意味的な多様性に乏しく、Text-to-imageを用いた拡張手法はクラス名やキャプションに依存するため、多様性やスタイルの忠実性の観点に課題があります。提案手法のMLPは、次の4つのステップで構成されます。
- LLMで説明文を生成
- 説明文の名詞や形容詞の一部をマスク
- LLMでマスク部分を文脈に合った語で補完
- 補完された説明文をText-to-imageモデルに入力して画像を生成
これにより、元画像のスタイルを保ちつつ、属性レベルでの多様性を導入しました。実験では、MLPがスタイルに合った語を使用して補完していることを確認しました。一部、LLMの補完がスタイルとずれてしまう例も散見され(例:fairy→streetwear)、今後はこういった誤補完を防ぐマスキング戦略のアップデートや、より多様なスタイルを含むベンチマークの構築が課題となります。
[IS3-062] 衣服のサイズを考慮した着用画像生成の検討
古澤拓也, 清水良太郎, 和田崇史(ZOZO研究所)
オンライン試着アプリケーションでのリアリティを向上させるためには、サイズ情報を反映した着用画像生成が必要です。本研究では、衣服のサイズに応じた形状変換を考慮した着用画像生成手法を提案しました。
既存の画像ベースの仮想試着手法では高品質な生成が可能であるものの、体型やサイズの情報が不足しており、サイズ変化を自然に再現したり、その定量的な評価は困難です。体型やサイズ情報を反映するアプローチとしては3Dモデルを利用する方法も考えられますが、コストが高く実用面で課題があります。
そこで、本研究では衣服・人体のサイズラベル付き3Dスキャンデータセット「Sizer Dataset」に着目しました。この3Dスキャンを多視点でレンダリングし、これを画像生成モデルの条件入力として用いることで、サイズラベル付きの写実的な合成画像データセットを構築しました。
さらに、この合成データセットのサイズ情報を画像生成モデルに反映するため、Stable Diffusion 1.5に対するアダプタを導入しました。このアダプタは、CLIP埋め込みとサイズ情報のベクトル表現をCross Attentionで取り込むことによりサイズ依存の形状変化を学習します。
実験の結果、着用画像生成の際にサイズをSからXLへと変えていくと、衣服の袖や身幅、シワや陰影が自然に変化することが確認できました。今後は、多様な衣服、ポーズ、体型への対応や定量的な評価指標の導入を検討しています。

気になった研究発表
[OS2B-09] Enhancing Image Memorability in Latent Diffusion Models
Ren Togo, Ryo Shichida, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama (Hokkaido Univ.)
テキストから画像を生成するAIは、与えられた指示に忠実な画像を生成することに優れています。しかし、「人の記憶に残る、印象的な画像」を意図的に作り出すことは、これまでの技術では困難でした。例えば「熱気球の写真」と入力しても、生成されるのはありきたりで、すぐに忘れられてしまうような画像かもしれません。広告やメディアの世界では「記憶に残ること」が極めて重要ですが、この抽象的な概念をAIにどう伝えればよいのでしょうか。
本研究は、その課題に対し「Memorable Diffusion」という独創的なアプローチを提案しています。この手法は、「画像の記憶定着性は、記憶に残るコンセプト(memorable concepts)の組み合わせによって生まれる」という仮説に基づいています。
研究チームは、大規模な画像生成モデル全体を再学習させるのではなく、「Memorable Mapping Network (MMN)」と呼ばれる軽量なニューラルネットワークを開発しました。MMNは既存の画像生成モデルにプラグインとして追加でき、記憶に残りやすい画像の特徴を事前に学習しています。画像生成時には、ユーザーの単純なプロンプト(例:「熱気球の写真」)をMMNが受け取り、その意味ベクトルを「より記憶に残りやすい」方向へ変換した上で画像生成モデルに渡します。これにより、元の意味を損なうことなく、より印象的な画像を生成できます。
実験結果では、Memorable Diffusionで生成された画像は、Stable Diffusionなどの既存モデルと比較して、記憶定着性スコア(IMS-V, IMS-R)で一貫して高い値を記録しています。さらに、この研究の興味深い点は、MMNが学習した「記憶に残るコンセプト」を単語として可視化していることです。例えば「熱気球」に対しては「カラフル」「クレヨン」「ヘリコプター」に対しては「浮遊」「空」といったコンセプトが記憶定着性を高める要素として抽出されており、各カテゴリに固有の記憶特性があることも示唆されました。
本研究は、生成AIが単に指示通りの画像を作るだけでなく、人間に与える心理的な影響までをコントロールしようとする大きな一歩です。特に広告、マーケティング、コンテンツ制作など、人々の心に「刺さる」ビジュアルが求められる分野では、意図的にエンゲージメントの高い画像を生成できるこの技術はゲームチェンジャーとなり得ます。さらに、高コストな再学習を必要としないプラグイン方式は実用性が高く、今後の生成AIの発展に新たな可能性が感じられます。
[OS2C-06] 基盤モデルによる視覚的評価を用いた動画広告の効果分析
田邉克晃, 増田俊太郎(東大), 劉岳松, 丹治直人, 勢〆弘幸(Septeni Japan), 肖玲, 山崎俊彦(東大)
動画広告の効果を測る指標として広く使われるクリック率(CTR)を事前に予測する技術は、広告運用の最適化において極めて重要です。しかし、従来の予測モデルの多くは、広告のジャンルや視聴履歴といった「メタデータ」に依存しており、広告動画そのものの意味内容(例えば「商品の魅力が分かりやすく伝わるか」「お得感が強調されているか」といった質的要素)はほとんど考慮されてきませんでした。
本研究では、マルチモーダル基盤モデルであるGPT-4oを活用し、動画広告の視覚的な「意味内容」を分析・特徴量化してCTR予測に組み込むという新しい手法を提案しています。これにより、広告が持つ訴求メッセージやクリエイティブの質を、予測精度向上のための新たな情報源として活用することを目指しています。
このアプローチの独創的な点は、データセット固有の「クリックされやすい意味要素」を基盤モデル自身に発見させるプロンプト戦略にあります。まず、CTRが特に高い広告と低い広告を数件ずつGPT-4oに提示し、「これらの広告からCTRに影響すると考えられる要素を列挙してください」と指示します。この文脈内学習を通じて、「メッセージの明確さ」や「特典」といった、今回のデータセットにおいて重要な要素が自動的に抽出されます。次に、これらの抽出要素を評価項目とする新たなプロンプトを作成し、全ての動画広告について意味内容を言語化させ、それを特徴量として予測モデルに追加しています。
実験の結果、この意味内容特徴量を加えたモデルは、従来のメタデータベースのモデルに比べて予測誤差(MSE)が最大14.02%改善されています。特に、「メッセージの明確さ」や「特典」といった要素を追加した際に精度向上が顕著であり、提案手法の有効性を裏付けています。
本研究は、これまでブラックボックス化しがちだった「クリエイティブの質」という定性的要素を、基盤モデルの力で定量的な予測モデルに組み込む道筋を示しています。これにより、特定の広告のCTRが高い理由を人間が解釈可能な形で分析できるようになります。これは単なる予測精度の向上にとどまらず、より効果的な広告制作のための具体的な指針を得ることにもつながる、広告などのクリエイティブな業界にとって有益な研究成果だと感じました。
[OS2C-05] Vision Language Modelを用いたEコマースプラットフォームにおける画像推薦の性能改善
矢田宙生, 秋山翔, 渡邊諒, 上野湧太, Andre Rusli, 紫藤佑介 (Mercari)
本研究は、月間2000万人以上が利用するEコマースプラットフォーム(メルカリ)において、VLMを用いた画像推薦システムを提案しています。
従来のEコマースにおける商品推薦では、計算効率を重視したCNNモデル(MobileNetなど)が主流でしたが、従来の手法では、商品の多様な特徴を捉えきれない課題が存在しました。そこで提案手法はSigLIPを商品画像と商品名のペアでファインチューニングし、商品画像から意味のある特徴量を抽出する画像エンコーダーを構築しています。
推薦システムでは、画像エンコーダーで商品画像をベクトル化し、Vector Storeで近似最近傍探索を行い、フィルタリングやRe-ranking処理を行っています。提案手法の有効性は、オフライン評価とオンライン評価で検証しています。オフライン評価では、従来のMobileNetと比較して、提案手法は、nDCG@5が9.1%向上、Precision@1も15.7%向上しています。オンライン評価は、ABテストを行い、タップ率が50%向上し、商品詳細ページからの購入数が14%向上しています。オフライン評価とオンライン評価から、VLMベースの画像エンコーダーが推薦タスクにおいて高い有効性を持つことを示しています。
さらに、本研究では実運用を考慮して、Vector Storeに格納するベクトルに対してPCAを適用し次元数を768次元から128次元まで落とすことで、ストレージ容量を83%程度削減しています。SigLIP+PCAは、nDCG@5が2.3%程度性能を低下させますが、MobileNetと比較すると6.6%程度向上しているため、ある程度検索精度を維持しながらも、効率的な運用がされていると言えそうです。
まとめ
本記事では、MIRU2025の参加レポートをお伝えしました。今年もMIRUに参加することで、業界の最先端を俯瞰し、多くの新たな知見を得ることができました。また、発表を通じてフィードバックを得られたこと、そしてスポンサーブースにて弊社の取り組みをご紹介できたことは大変貴重な機会でした。ここで得た知見を今後の研究開発に積極的に取り入れ、さらなる成果を得るために、そして業界の発展に貢献するために邁進していきます。
最後に
ZOZOでは、一緒にサービスを作り上げてくれる方を募集中です。ご興味のある方は、以下のリンクからぜひご応募ください。
Source link
コメント