阿里巴巴 on bitJoy

论文阅读：MOON: Generative MLLM-based Multimodal Representation Learning for E-commerce Product Understanding

Thu, 23 Apr 2026 23:59:28 +0800

这篇文章和MOON技术报告有大量重复，建议先阅读MOON技术报告读书笔记。

基本信息

论文标题：MOON: Generative MLLM-based Multimodal Representation Learning for E-commerce Product Understanding
作者单位：阿里
论文链接：https://arxiv.org/abs/2508.11999
来源：WSDM 2026

Motivation：论文要解决的问题是什么

多模态信息在电商应用的挑战如下：

传统CLIP方法只能学习图片和文本的1对1关系，但是电商场景经常是一个商品标题对应多张商品图片，故传统CLIP已经不太能胜任这种场景，而MLLM可以
电商图片有很多噪声，比如背景、无关商品、促销信息等，需要去噪之后再进行表征学习
领域缺乏电商场景下通用多模态表征的benchmark数据集

对比学习预训练

如图Fig 4所示，整体模型结构和MOON技术报告中的基本一样：

样本构造：使用q2i下单信号构造正样本pair，使用同类目的其他商品作为难负例，使用时空负例采样扩大负例样本数量
训练任务：对比学习，InfoNCE loss
输入特征：包括标题、图片、类目、属性等特征
图片去噪：图片会先使用Qwen2.5-VL进行主体识别，主体识别时同时输入图片和商品标题，让模型提取出符合标题的图片主体。然后会把去噪前后的图片都输入到MLLM中进行表征学习
表征提取：使用MLLM最后一层所有token的hidden states进行mean pooling后得到

本文相比MOON技术报告的创新点在Fig 5，即作者把MLLM中的FFN改造成了MoE结构，作者认为输入给MLLM的特征太多，不同特征反应了商品在不同方面的特点，比如图片、标题、类目、属性等，因此这个MoE让模型能动态自适应关注商品的不同特征。

结果

因为本文的目标是训练通用多模态表征，为了验证通用表征的效果，作者在2个数据集的3个任务上进行了系统性评测，结果如图Fig 1所示，本文的方法比传统方法以及其他MLLM方法都要好。通过消融实验发现，主要提升来自3个创新点：1）图片主体识别；2）MoE；3）扩充负例。

可借鉴
- 使用MoE让emb关注商品不同特征，这个思路挺好的
可改进
- 论文整体创新性不够，MLLM生产商品多模态表征的思路很多年前都有了，快手的QARM，小红书的NoteLLM很早就发表了，但本文完全没有引用
- 电商图片使用主体识别进行去噪的思想之前沃尔玛也发表了，本文没有任何引用：https://bitjoy.net/posts/2025-10-08-vl-clip-paper-reading/。而且图像去噪需要使用另一个MLLM大模型，会增加模型推理和部署的成本，有办法把这一步合并到主模型中吗？
- 本文第三个创新点提出了通用多模态表征评测benchmark，但并没有提供数据和代码链接
- 对比学习样本只有下单的Q2I信号，没有点击、加购信号，也没有I2I信号。难负例是同类目其他商品，有假负例的风险很高。比如Q=“手机”，I=“华为手机”，那用“小米手机”作为难负例肯定是不合适的。
- MoE结构的Router输入的是商品的所有特征x，感觉不太合理，感觉可以只输入类目信息，因为不同类目的表征关注重点不同，比如服饰类目更多关注图片，而3C数码更多关注标题属性等
- 离线对比实验的时候，并没有说明不同多模态模型输出的dimension是否一致，是否公平
- 没有线上AB效果

论文阅读：MOON Embedding: Multimodal Representation Learning for E-commerce Search Advertising

Sat, 18 Apr 2026 11:31:06 +0800

基本信息

论文标题：MOON Embedding: Multimodal Representation Learning for E-commerce Search Advertising
作者单位：阿里
论文链接：https://arxiv.org/abs/2511.11305
来源：arxiv

Motivation：论文要解决的问题是什么

多模态信息在电商搜推系统中有很重要的作用，本文介绍了阿里在应用多模态信息过程中积累的实战经验，洋洋洒洒31页，介绍内容很多，核心围绕着多模态应用的三步走策略：“Pretraining, Post-training, and Application”，介绍了预训练方法、下游应用方法、工程架构优化等内容。

总体流程

总体流程如图Fig1所示，上面是算法流程，下面是工程架构。算法包括三个流程：MLLM预训练、多模态表征后训练、多模态表征下游应用。工程包括两个环节：表征生产、表征消费。

MLLM预训练（Pretraining）

阿里并不是基于开源MLLM微调生产多模态表征，而是他们内部预训练了一个MLLM，叫TBStars-VL，是一个4B的模型。和通用MLLM一样，TBStars-VL也在通用数据集上进行过NTP的预训练，除此之外，TBStars-VL还在淘宝内部的电商数据上进行过预训练，预训练的任务主要是面向电商场景的QA任务，比如Fig1左上角展示的针对商品图片的描述、商品属性抽取、标题生成、图片主体识别等。这一阶段的预训练主要是给TBStars-VL注入电商领域知识。这部分论文介绍篇幅很短，没有具体细节。

多模态表征后训练（Post-training）

由于TBStars-VL是基于NTP任务训练好的生成式模型，没法直接产出多模态表征，故还需要进行多模态表征后训练，其实就是对比学习微调。

在这个环节，作者把TBStars-VL的生成式单向attention改成了双向attention，以输出层的mean pooling结果作为表征输出。训练任务是经典的对比学习+InfoNCE loss。

在正样本构造方面，本文使用了多种q2i数据，比如图搜图、文搜文、文搜商品（图文）等，协同信号使用了点击、加购、下单等信号。样本统计数据如Table 2所示。虽然本文挖掘了不同协同关系的q2i正样本，但没说这些数据具体怎么用的，是混在一起shuffle训的话，其实学了个四不像。不如每种q2i数据都单独训一套表征。

这一阶段对比学习训练的负样本就是in-batch负例。

完成上述后训练之后，作者后续还进行了一轮精调，即只用下单的q2i正样本，且对所有下单q2i进行了如下清洗：

相似度去重
- 对于同一个item关联的多个正样本query，使用之前的模型产出q和i的表征，只保留(q,i)相似度最低的pair。作者认为相似度高的pair可能是热门的简单样本，所以只保留相似度最低即难度最大且长尾的(q,i)样本，加强对这部分数据的学习
- 对训练集中的所有(q,i) pair，把属于同一个spu的sku样本合并，增加样本的多样性，同时避免batch内出现同spu的不同sku互为假负例的情况
- 最后统计训练集中的(q,i)对应的类目分布，将训练样本的类目分布和线上曝光商品的类目分布对齐，对商品占比高的类目降采样
NER去重
- 对query和sku的标题文本进行NER，认为实体数量少于2个的文本蕴含信息太少，把这部分样本删掉

此外，这次精调还额外使用了负样本，包括2种负采样方法：

难负例采样。对于正样本(q,i) pair，把和i属于同一个类目的其他商品i’作为i的难负例。这一点我感觉难负例太强了，会出现很多假负例，比如搜“手机”，购买了“小米手机”，但并不意味着“华为手机”就和搜索词“手机”是负例关系。
时空负采样。听着很高级，但其实也是常规操作：时间负采样就是memory bank的思路，空间负采样就是把其他GPU上的emb gather到当前GPU作为负样本。

最后，这一阶段精调的loss也不再是InfoNCE loss了，而是circle loss，这个和InfoNCE loss有点类似，后续有空了研究清楚。

多模态表征应用（Application）

多模态表征在排序模型中的应用结构如图Fig 5所示，相对比较简单，就是用多模态表征和行为流的多模态表征计算相似度，然后用相似度对行为流进行加权求和。

工程架构优化

多模态应用的全链路周期很长，作者在每个环节都进行了很多工程优化，如下图Fig7所示。个人读下来这些优化也比较常规，大部分优化方法我们都用过。由于这部分不是算法关注的重点，不展开介绍了。

效果评估

在效果评估上，作者发现基于图像表征的搜索召回率可以作为优化表征模型的一个代理指标，能和下游排序任务的指标对应上。但是个人认为这个结论不具有普适性，而且这两个指标还是不太一样，搜索召回率本质上是一个召回任务，而下游是排序任务，对emb的细粒度区分能力要求更高。

评价

可借鉴
- 最后精调使用的样本，使用(q,i)下单样本，并且进行了复杂的数据清洗，得到的数据质量很高，可以参考这些方法进行数据清洗
- 最后精调使用了circle loss，说是能提升正负例的区分能力，后续可参考
可改进
- 论文太长了，现在大厂都喜欢写很长的technical report，但是太长了可读性不太好，很多车轱辘话反复说，不够精简，而且重点不突出，创新性不突出
- 对比实验严重不足，比如为什么需要用内部的TBStars-VL，电商数据pretraining的收益有多大，和直接微调开源MLLM的对比效果如何？
- Q2I的难负例是否会造成很多假负例？
- 最后精调的时候，为什么要用circle loss，和使用InfoNCE loss对比效果如何
- 使用MLLM最后一层的mean pooling，这种和加特殊token的方法哪个更好？
- 使用图像搜索召回率作为排序指标的代理指标，合理吗？具有普适性吗？
- Table 3，recall@k指标，k越大recall@k越低，不合理吧，应该越高吧？

论文阅读：Large Reasoning Embedding Models: Towards Next-Generation Dense Retrieval Paradigm

Sat, 13 Dec 2025 18:25:12 +0800

基本信息

论文标题：Large Reasoning Embedding Models: Towards Next-Generation Dense Retrieval Paradigm
作者单位：阿里巴巴
论文链接：https://arxiv.org/abs/2510.14321
来源：arxiv

一、问题

电商emb召回场景，目前的方法都是直接字面语义上的对比学习训练（direct-embedding methods），即q2i的对比学习训练。对于复杂、困难的query，语义理解能力不足，比如下图Fig1中的query=“比茶更提神的饮料”，仍然会召回很多茶，因为字面理解没有理解query背后的深层含义。

二、方法

使用LLM强大的推理能力（reasoning），先推理出CoT，然后基于CoT再产emb。比如上面的例子中，经过LLM推理之后，推理出咖啡、红牛等关键词，通过这些关键词再去产emb然后召回，效果就好很多。

2.1 训练样本构造方法

如下图Fig2中的Data Construction部分：

收集线上query，尤其是那种困难query，就是在现有direct-embedding表现不好的query
把这些query喂给现有召回模型，得到召回商品集合①
然后使用强大的Qwen3-30B-A3B-Instruct生产CoT扩展信息
- Unconstrained Reasoning：首先不加任何限制地生产CoT，尽可能利用大模型的世界知识和推理能力，生产充分完全的CoT信息
- Information Extraction：由于上一步产出的CoT信息太长了，不利于线上推理，因此把上一步产出的CoT和原始query再次输入给大模型，让大模型抽取其中的关键信息，以keyword list形式输出
- Post Processing：最后对上一步抽取的关键词进行后处理，去除重复词，去除query中已有的词等，得到精简、干净的关键词列表，列表最大长度是16
接着把query和CoT喂给已有的向量召回模型，得到扩展的召回商品集合②
- 由于要训练模型的Reasoning能力，所以只取出集合②-①的差集部分，这部分是CoT带来的增益商品集合
最后使用相关性模型对商品集合②-①进行过滤，过滤出相关的商品
通过上述步骤，产出约7.5kw的<query, CoT, item>三元组
把上述样本划分成两部分，7.1kw的<query, CoT, item>三元组用于Cold start预训练；剩余400w的<query, item>用于RL微调

2.2 Cold Start预训练

对应图Fig2左下角部分，该模块通过大规模的<query, CoT,item>三元组数据预训练，想要达到两个目的：一是让基础模型具备think能力；二是让基础模型产出的emb和下游q2i任务对齐。

这里使用的基础模型是Qwen2.5-3B-Instruct，比生产CoT的模型（Qwen3-30B-A3B-Instruct）小，其实也有点蒸馏的感觉，把大模型的CoT能力蒸馏到小模型中。

训练任务包括两个，一个是CoT的NTP loss（对应图中的SFT loss），另一个是q2i的对比学习InfoNCE loss。query塔和item塔共享参数，他们的emb都是最后一个特殊token <emb> 的emb。

Loss组合：

2.3 RL微调

上一步的SFT主要进行模仿学习，模仿更大的大模型的think能力，小模型本身的reasoning能力受限，接下来需要用GRPO对小模型进行RL微调。RL微调同时对生产CoT和生产emb两个任务都有作用，具体看下面的reward：

RL微调设计了3个reward：

Format Reward：产出的CoT格式符合“<think> Specific CoT </think><emb>”就得1分，否则得0分
Length Reward：产出的CoT格式符合长度限制（<=16）就得1分，否则得0分
Retrieval Accuracy Reward：联合原始query和产出的CoT产出的增强query emb，与batch内所有的item emb求相似度，正确item所在的排名为\(rank(d_i)\)，再根据公式12计算一个排名的reward。核心思想是：正确的item与query的相似度排名越高则reward越大（即rank值越小则reward越大）。

最后，上述3个reward通过三个β系数组合起来：

阿里巴巴 on bitJoy

论文阅读：MOON: Generative MLLM-based Multimodal Representation Learning for E-commerce Product Understanding

基本信息

Motivation：论文要解决的问题是什么

对比学习预训练

结果

评论

论文阅读：MOON Embedding: Multimodal Representation Learning for E-commerce Search Advertising

基本信息

Motivation：论文要解决的问题是什么

总体流程

MLLM预训练（Pretraining）

多模态表征后训练（Post-training）

多模态表征应用（Application）

工程架构优化

效果评估

评价

论文阅读：Large Reasoning Embedding Models: Towards Next-Generation Dense Retrieval Paradigm

基本信息

一、问题

二、方法

2.1 训练样本构造方法

2.2 Cold Start预训练

2.3 RL微调