GRPO | bitJoy

论文阅读：Retrieval-GRPO: A Multi-Objective Reinforcement Learning Framework for Dense Retrieval in Taobao Search

基本信息论文标题：Retrieval-GRPO: A Multi-Objective Reinforcement Learning Framework for Dense Retrieval in Taobao Search 作者单位：阿里论文链接：https://arxiv.org/abs/2511.13885 来源：Arxiv Motivation：论文要解决的问题是什么在emb召回场景，之前的范式基本上是q2i对比学习训练，在此基础上会做难负例的挖掘，以及在loss中融入多种业务目标。例如，通过人工先验构造难负例；在loss中融入相关性等其他loss任务。这种范式存在两个问题，一是难负例挖掘依赖人工先验知识，效率太低；二是loss融入多目标之后，训练过程存在跷跷板效应，即A目标变好之后可能导致B目标变差等。本文在传统对比学习预训练的基础上，引入了Retrieval-GRPO对齐，通过检索TopK相似item，然后进行GRPO训练，一是可以自动挖掘难负例，二是将多种业务目标融合成一个reward，避免了跷跷板效应。整体流程整体流程包括两个部分，一是常规的对比学习预训练，让emb模型具备基本的相似度判别能力；二是在预训练基础上，进行Retrieval-GRPO对齐，让emb模型对齐不同的业务目标。对比学习预训练（SFT）这部分比较常规，就是从线上日志中挖掘出一批正样本二元组：query $q_i$和item $d_j^+$，然后通过InfoNCE loss进行对比学习预训练 $$ \mathcal{L}_{\text{InfoNCE}} = -\log \frac{\exp(s(q_i, d_j^+) / \tau)}{\sum_{d_j \in \mathcal{B}} \exp(s(q_i, d_j) / \tau)} \qquad (4) $$本文的重点就是说不需要手动挖掘难负例，通过后面的Retrieval-GRPO自动挖掘难负例，所以上述公式中只有in-batch负例，没有人工构造难负例。但是，作者认为，in-batch只包含有行为的负例（即其他query的正例），大量无行为的item被忽略了，导致对中长尾商品的效果不佳。因此，作者在in-batch负例基础上，又从全局商品池随机采样了一些作为全局负例，新的公式如下： $$\mathcal{L} = -\log \frac{\exp(s(q_i, d_j^+) / \tau)}{\underbrace{\sum_{d_j \in \mathcal{B}} \exp(s(q_i, d_j) / \tau)}_{\text{positive and in-batch negatives}} + \underbrace{\sum_{d_k^- \in \mathcal{G}} \exp(s(q_i, d_k^-) / \tau)}_{\text{global negatives}}} \qquad (5)$$其中$\mathcal{B}$是in-batch负例，$\mathcal{G}$是全局随机采样的负例。 ...

论文阅读：UniNote: A Unified Embedding Model for Multimodal Representation and Ranking

基本信息论文标题：UniNote: A Unified Embedding Model for Multimodal Representation and Ranking 作者单位：小红书论文链接：https://arxiv.org/abs/2605.29287 来源：KDD Ads Track 2026 Motivation：论文要解决的问题是什么小红书的笔记是一个非常典型的多模态item，一篇小红书笔记通常包括多张图片、标题、主题文字等，有的甚至还有视频。小红书使用传统多模态emb做I2I召回时，遇到如下几个问题：传统基于CLIP的方法学习的是item整体的表征，缺乏对模态细节的学习。而且这种方法多模态特征是晚交互的late interaction，多模态融合的效果不佳。基于MLLM的方法在item全局表征上的效果还可以，但是细粒度表征效果不佳。特别是小红书场景用一张图片检索整个笔记的情况，即local-to-global的检索场景。现有基于对比学习微调的多模态emb（例如小红书之前的NoteLLM-2），融入了协同信号，已经不能完全客观反应I2I的语义相似性了，虽然这些emb的召回效果还可以，但是排序效果较差，后续还需要很复杂的单塔排序模型。即这种retrieve-then-rerank需要两个模型，维护成本较高。针对上述小红书场景的复杂I2I召回问题，本文设计了一个同时适用于表征和排序的emb模型，重点解决了多粒度模态对齐的问题（比如local-to-global的问题）以及增强了emb的排序能力。整体流程整体流程如图Fig2所示：首先根据业务需求设计对齐任务，构造预训练数据然后进行对比学习预训练最后使用RL微调模型的排序能力其中前两步是常规操作，只不过根据小红书的业务需求进行了特定的设计，第三步的RL微调是比较重要的创新点。对齐任务及预训练数据如下表Table 1所示，本文共设计了5类10个对齐任务：原子对齐：笔记中单张图片和笔记文字的对齐从属召回：笔记中单张图片或文字片段与笔记整体的对齐语义抽取：笔记整体召回笔记中单张图片或文字片段 OCR能力：图片和OCR，OCR和笔记整体内容相关性：笔记和笔记整体的对齐可以看到对齐任务非常多，包括不同模态的对齐、local和local的对齐、local和global的对齐、global和global的对齐。这10个任务前9个任务都可以从同一个笔记中挖掘出训练样本，唯独最后一个笔记和笔记的对齐，需要业务知识进行构造，文中没有介绍如何构造笔记正样本pair的。在从属召回任务中，通常可以把笔记中的一张图片$I_i$和笔记整体$\mathcal{N}$作为正样本二元组$(I_i,\mathcal{N})$，但是因为$I_i\in \mathcal{N}$，作者担心这么训练可能让模型学习到捷径，所以把$I_i$从$\mathcal{N}$中剔除掉，但加上了$I_i$的文本描述$\{S_{\text{desc}}^i\}$，作为一个新的正样本$\mathcal{N}'$： $$ (I_i, \mathcal{N}'), \quad \text{where} \quad \mathcal{N}' = \{S_{\text{desc}}^i\} \cup \mathcal{N} \setminus \{I_i\} \tag{2} $$在负样本构造方面，作者重点介绍了两种负样本构造方法：第一种方法是中等难度的负例。对于锚点$q$，从全部候选商品池$\mathcal{P}$中，圈一部分与$q$相似度在$[\tau_{\min},\tau_{\max}]$之间的子集$\mathcal{P}'$，作为$q$的难负例。在算相似度时，这一步使用一个基础版的emb模型$\phi$，可能是开源的或者比较弱的emb模型。 $$ \mathcal{P}' = \{c \in \mathcal{P} \mid \tau_{\min} \le \text{sim}(\phi(q), \phi(c)) \le \tau_{\max}\}, \tag{3} $$第二种方法是高难度负例，文中称为heuristic rules based方法。特别是针对local-to-global对齐任务，下面公式5给的是负例，负例是直接把$I_i$从$\mathcal{N}$中剔除就是负例；上面公式2给的是正例，相当于在负例基础上增加了$I_i$的文本描述$\{S_{\text{desc}}^i\}$。公式5的负例感觉过于难了。 ...

论文阅读：Large Reasoning Embedding Models: Towards Next-Generation Dense Retrieval Paradigm

基本信息论文标题：Large Reasoning Embedding Models: Towards Next-Generation Dense Retrieval Paradigm 作者单位：阿里巴巴论文链接：https://arxiv.org/abs/2510.14321 来源：arxiv 一、问题电商emb召回场景，目前的方法都是直接字面语义上的对比学习训练（direct-embedding methods），即q2i的对比学习训练。对于复杂、困难的query，语义理解能力不足，比如下图Fig1中的query=“比茶更提神的饮料”，仍然会召回很多茶，因为字面理解没有理解query背后的深层含义。二、方法使用LLM强大的推理能力（reasoning），先推理出CoT，然后基于CoT再产emb。比如上面的例子中，经过LLM推理之后，推理出咖啡、红牛等关键词，通过这些关键词再去产emb然后召回，效果就好很多。 2.1 训练样本构造方法如下图Fig2中的Data Construction部分：收集线上query，尤其是那种困难query，就是在现有direct-embedding表现不好的query 把这些query喂给现有召回模型，得到召回商品集合① 然后使用强大的Qwen3-30B-A3B-Instruct生产CoT扩展信息 Unconstrained Reasoning：首先不加任何限制地生产CoT，尽可能利用大模型的世界知识和推理能力，生产充分完全的CoT信息 Information Extraction：由于上一步产出的CoT信息太长了，不利于线上推理，因此把上一步产出的CoT和原始query再次输入给大模型，让大模型抽取其中的关键信息，以keyword list形式输出 Post Processing：最后对上一步抽取的关键词进行后处理，去除重复词，去除query中已有的词等，得到精简、干净的关键词列表，列表最大长度是16 接着把query和CoT喂给已有的向量召回模型，得到扩展的召回商品集合② 由于要训练模型的Reasoning能力，所以只取出集合②-①的差集部分，这部分是CoT带来的增益商品集合最后使用相关性模型对商品集合②-①进行过滤，过滤出相关的商品通过上述步骤，产出约7.5kw的<query, CoT, item>三元组把上述样本划分成两部分，7.1kw的<query, CoT, item>三元组用于Cold start预训练；剩余400w的<query, item>用于RL微调 2.2 Cold Start预训练对应图Fig2左下角部分，该模块通过大规模的<query, CoT,item>三元组数据预训练，想要达到两个目的：一是让基础模型具备think能力；二是让基础模型产出的emb和下游q2i任务对齐。这里使用的基础模型是Qwen2.5-3B-Instruct，比生产CoT的模型（Qwen3-30B-A3B-Instruct）小，其实也有点蒸馏的感觉，把大模型的CoT能力蒸馏到小模型中。训练任务包括两个，一个是CoT的NTP loss（对应图中的SFT loss），另一个是q2i的对比学习InfoNCE loss。query塔和item塔共享参数，他们的emb都是最后一个特殊token <emb> 的emb。 Loss组合： 2.3 RL微调上一步的SFT主要进行模仿学习，模仿更大的大模型的think能力，小模型本身的reasoning能力受限，接下来需要用GRPO对小模型进行RL微调。RL微调同时对生产CoT和生产emb两个任务都有作用，具体看下面的reward： RL微调设计了3个reward： Format Reward：产出的CoT格式符合“<think> Specific CoT </think><emb>”就得1分，否则得0分 Length Reward：产出的CoT格式符合长度限制（<=16）就得1分，否则得0分 Retrieval Accuracy Reward：联合原始query和产出的CoT产出的增强query emb，与batch内所有的item emb求相似度，正确item所在的排名为$rank(d_i)$，再根据公式12计算一个排名的reward。核心思想是：正确的item与query的相似度排名越高则reward越大（即rank值越小则reward越大）。最后，上述3个reward通过三个β系数组合起来： ...