论文阅读：VL-CLIP: Enhancing Multimodal Recommendations via Visual Grounding and LLM-Augmented CLIP Embeddings

October 8, 2025 · 1 min

Table of Contents

基本信息
Motivation：论文要解决的问题是什么
VL-CLIP解决方案
评论

基本信息

论文标题：VL-CLIP: Enhancing Multimodal Recommendations via Visual Grounding and LLM-Augmented CLIP Embeddings
作者单位：沃尔玛
论文链接：https://arxiv.org/pdf/2507.17080
来源：RecSys 2025

Motivation：论文要解决的问题是什么

多模态q2i召回通常使用CLIP的对比学习方式进行训练，在电商场景下存在2个问题：

CLIP这种方式通常是对图片整体的表征，缺乏细粒度的目标检测能力，尤其在电商场景，比如fig1，卖衣服场景，传统CLIP只能识别整张图片是一件T恤，难以关注T恤上的图案等细节特征；另外，电商图片往往存在很多附加背景、道具、模特等元素，会影响主体物体的表征
电商标题、属性等文本描述通常参差不齐，存在错误、堆砌、图文不符等问题，导致CLIP训练时图文对齐效果不佳

VL-CLIP解决方案

针对图片的处理：

将图片和商品类型（product type）输入到开源模型Grounding DINO中，让模型进行目标检测，将可信度超过某个阈值且可信度最高的区域抠出来，输入到CLIP的图像encoder中。通过这步预处理，相当于对电商图片进行了关键主体识别和提取，只提取和商品最相关的主体进行图像表征。文中使用的图像编码器是ViT-B/32。

针对文本的处理：

将商品的类型、标题、描述、性别、年龄等文本描述以及图片本身输入到Summarizer多模态大模型，让大模型产出精简、准确的文本描述\(q_0\)
将\(q_0\)和商品图文信息输入到Evaluator多模态大模型，让大模型对\(q_0\)的质量进行评判，如果\(q_0\)质量很好，则直接输出<STOP>；否则指出\(q_0\)的问题所在，并说明改进方法
如果第2步输出不是<STOP>，则将第2步的输出再输入到Refiner大模型，让大模型根据第2步的结果继续调整并输出更优的文本描述\(q_i\)
不断重复第2、3步，直到输出<STOP>，或者最多重复5遍
将产出的精准的文本描述q输入到CLIP的文本encoder中，文中使用的是BERT系列。产出的emb维度是512
上述Summarizer、Evaluator、Refiner都是VLM，文中使用的是GPT-4o，三个任务的prompt设计参考论文附录Table 9

上述对图片和文本的处理本质上是去噪，提取图片的主体物品、让文本描述更加精准。

产出多模态emb之后，后续的操作就是常规的召回流程了，使用HNSW进行ANN召回。

评论

可借鉴
- 使用Grounding DINO对图片进行主体识别，值得借鉴
- 使用VLM对商品标题、描述等文本信息进行去噪，值得借鉴
- 但如果商品量级很大的话，这两个步骤估计会很耗时
可改进
- 如果是q2i场景，直接用query文本是不是更真实，更接近搜索日子的真实数据分布？