论文阅读:VL-CLIP: Enhancing Multimodal Recommendations via Visual Grounding and LLM-Augmented CLIP Embeddings

基本信息 论文标题:VL-CLIP: Enhancing Multimodal Recommendations via Visual Grounding and LLM-Augmented CLIP Embeddings 作者单位:沃尔玛 论文链接:https://arxiv.org/pdf/2507.17080 来源:RecSys 2025 Motivation:论文要解决的问题是什么 多模态q2i召回通常使用CLIP的对比学习方式进行训练,在电商场景下存在2个问题: CLIP这种方式通常是对图片整体的表征,缺乏细粒度的目标检测能力,尤其在电商场景,比如fig1,卖衣服场景,传统CLIP只能识别整张图片是一件T恤,难以关注T恤上的图案等细节特征;另外,电商图片往往存在很多附加背景、道具、模特等元素,会影响主体物体的表征 电商标题、属性等文本描述通常参差不齐,存在错误、堆砌、图文不符等问题,导致CLIP训练时图文对齐效果不佳 VL-CLIP解决方案 针对图片的处理: 将图片和商品类型(product type)输入到开源模型Grounding DINO中,让模型进行目标检测,将可信度超过某个阈值且可信度最高的区域抠出来,输入到CLIP的图像encoder中。通过这步预处理,相当于对电商图片进行了关键主体识别和提取,只提取和商品最相关的主体进行图像表征。文中使用的图像编码器是ViT-B/32。 针对文本的处理: 将商品的类型、标题、描述、性别、年龄等文本描述以及图片本身输入到Summarizer多模态大模型,让大模型产出精简、准确的文本描述\(q_0\) 将\(q_0\)和商品图文信息输入到Evaluator多模态大模型,让大模型对\(q_0\)的质量进行评判,如果\(q_0\)质量很好,则直接输出<STOP>;否则指出\(q_0\)的问题所在,并说明改进方法 如果第2步输出不是<STOP>,则将第2步的输出再输入到Refiner大模型,让大模型根据第2步的结果继续调整并输出更优的文本描述\(q_i\) 不断重复第2、3步,直到输出<STOP>,或者最多重复5遍 将产出的精准的文本描述q输入到CLIP的文本encoder中,文中使用的是BERT系列。产出的emb维度是512 上述Summarizer、Evaluator、Refiner都是VLM,文中使用的是GPT-4o,三个任务的prompt设计参考论文附录Table 9 上述对图片和文本的处理本质上是去噪,提取图片的主体物品、让文本描述更加精准。 产出多模态emb之后,后续的操作就是常规的召回流程了,使用HNSW进行ANN召回。 评论 可借鉴 使用Grounding DINO对图片进行主体识别,值得借鉴 使用VLM对商品标题、描述等文本信息进行去噪,值得借鉴 但如果商品量级很大的话,这两个步骤估计会很耗时 可改进 如果是q2i场景,直接用query文本是不是更真实,更接近搜索日子的真实数据分布?

October 8, 2025 · 1 min