论文阅读:UniNote: A Unified Embedding Model for Multimodal Representation and Ranking

基本信息 论文标题:UniNote: A Unified Embedding Model for Multimodal Representation and Ranking 作者单位:小红书 论文链接:https://arxiv.org/abs/2605.29287 来源:KDD Ads Track 2026 Motivation:论文要解决的问题是什么 小红书的笔记是一个非常典型的多模态item,一篇小红书笔记通常包括多张图片、标题、主题文字等,有的甚至还有视频。小红书使用传统多模态emb做I2I召回时,遇到如下几个问题: 传统基于CLIP的方法学习的是item整体的表征,缺乏对模态细节的学习。而且这种方法多模态特征是晚交互的late interaction,多模态融合的效果不佳。 基于MLLM的方法在item全局表征上的效果还可以,但是细粒度表征效果不佳。特别是小红书场景用一张图片检索整个笔记的情况,即local-to-global的检索场景。 现有基于对比学习微调的多模态emb(例如小红书之前的NoteLLM-2),融入了协同信号,已经不能完全客观反应I2I的语义相似性了,虽然这些emb的召回效果还可以,但是排序效果较差,后续还需要很复杂的单塔排序模型。即这种retrieve-then-rerank需要两个模型,维护成本较高。 针对上述小红书场景的复杂I2I召回问题,本文设计了一个同时适用于表征和排序的emb模型,重点解决了多粒度模态对齐的问题(比如local-to-global的问题)以及增强了emb的排序能力。 整体流程 整体流程如图Fig2所示: 首先根据业务需求设计对齐任务,构造预训练数据 然后进行对比学习预训练 最后使用RL微调模型的排序能力 其中前两步是常规操作,只不过根据小红书的业务需求进行了特定的设计,第三步的RL微调是比较重要的创新点。 对齐任务及预训练数据 如下表Table 1所示,本文共设计了5类10个对齐任务: 原子对齐:笔记中单张图片和笔记文字的对齐 从属召回:笔记中单张图片或文字片段与笔记整体的对齐 语义抽取:笔记整体召回笔记中单张图片或文字片段 OCR能力:图片和OCR,OCR和笔记整体 内容相关性:笔记和笔记整体的对齐 可以看到对齐任务非常多,包括不同模态的对齐、local和local的对齐、local和global的对齐、global和global的对齐。这10个任务前9个任务都可以从同一个笔记中挖掘出训练样本,唯独最后一个笔记和笔记的对齐,需要业务知识进行构造,文中没有介绍如何构造笔记正样本pair的。 在从属召回任务中,通常可以把笔记中的一张图片\(I_i\)和笔记整体\(\mathcal{N}\)作为正样本二元组\((I_i,\mathcal{N})\),但是因为\(I_i\in \mathcal{N}\),作者担心这么训练可能让模型学习到捷径,所以把\(I_i\)从\(\mathcal{N}\)中剔除掉,但加上了\(I_i\)的文本描述\(\{S_{\text{desc}}^i\}\),作为一个新的正样本\(\mathcal{N}'\): $$ (I_i, \mathcal{N}'), \quad \text{where} \quad \mathcal{N}' = \{S_{\text{desc}}^i\} \cup \mathcal{N} \setminus \{I_i\} \tag{2} $$在负样本构造方面,作者重点介绍了两种负样本构造方法: 第一种方法是中等难度的负例。对于锚点\(q\),从全部候选商品池\(\mathcal{P}\)中,圈一部分与\(q\)相似度在\([\tau_{\min},\tau_{\max}]\)之间的子集\(\mathcal{P}'\),作为\(q\)的难负例。在算相似度时,这一步使用一个基础版的emb模型\(\phi\),可能是开源的或者比较弱的emb模型。 $$ \mathcal{P}' = \{c \in \mathcal{P} \mid \tau_{\min} \le \text{sim}(\phi(q), \phi(c)) \le \tau_{\max}\}, \tag{3} $$第二种方法是高难度负例,文中称为heuristic rules based方法。特别是针对local-to-global对齐任务,下面公式5给的是负例,负例是直接把\(I_i\)从\(\mathcal{N}\)中剔除就是负例;上面公式2给的是正例,相当于在负例基础上增加了\(I_i\)的文本描述\(\{S_{\text{desc}}^i\}\)。公式5的负例感觉过于难了。 ...

June 14, 2026 · 1 min

论文阅读:Large Reasoning Embedding Models: Towards Next-Generation Dense Retrieval Paradigm

基本信息 论文标题:Large Reasoning Embedding Models: Towards Next-Generation Dense Retrieval Paradigm 作者单位:阿里巴巴 论文链接:https://arxiv.org/abs/2510.14321 来源:arxiv 一、问题 电商emb召回场景,目前的方法都是直接字面语义上的对比学习训练(direct-embedding methods),即q2i的对比学习训练。对于复杂、困难的query,语义理解能力不足,比如下图Fig1中的query=“比茶更提神的饮料”,仍然会召回很多茶,因为字面理解没有理解query背后的深层含义。 二、方法 使用LLM强大的推理能力(reasoning),先推理出CoT,然后基于CoT再产emb。比如上面的例子中,经过LLM推理之后,推理出咖啡、红牛等关键词,通过这些关键词再去产emb然后召回,效果就好很多。 2.1 训练样本构造方法 如下图Fig2中的Data Construction部分: 收集线上query,尤其是那种困难query,就是在现有direct-embedding表现不好的query 把这些query喂给现有召回模型,得到召回商品集合① 然后使用强大的Qwen3-30B-A3B-Instruct生产CoT扩展信息 Unconstrained Reasoning:首先不加任何限制地生产CoT,尽可能利用大模型的世界知识和推理能力,生产充分完全的CoT信息 Information Extraction:由于上一步产出的CoT信息太长了,不利于线上推理,因此把上一步产出的CoT和原始query再次输入给大模型,让大模型抽取其中的关键信息,以keyword list形式输出 Post Processing:最后对上一步抽取的关键词进行后处理,去除重复词,去除query中已有的词等,得到精简、干净的关键词列表,列表最大长度是16 接着把query和CoT喂给已有的向量召回模型,得到扩展的召回商品集合② 由于要训练模型的Reasoning能力,所以只取出集合②-①的差集部分,这部分是CoT带来的增益商品集合 最后使用相关性模型对商品集合②-①进行过滤,过滤出相关的商品 通过上述步骤,产出约7.5kw的<query, CoT, item>三元组 把上述样本划分成两部分,7.1kw的<query, CoT, item>三元组用于Cold start预训练;剩余400w的<query, item>用于RL微调 2.2 Cold Start预训练 对应图Fig2左下角部分,该模块通过大规模的<query, CoT,item>三元组数据预训练,想要达到两个目的:一是让基础模型具备think能力;二是让基础模型产出的emb和下游q2i任务对齐。 这里使用的基础模型是Qwen2.5-3B-Instruct,比生产CoT的模型(Qwen3-30B-A3B-Instruct)小,其实也有点蒸馏的感觉,把大模型的CoT能力蒸馏到小模型中。 训练任务包括两个,一个是CoT的NTP loss(对应图中的SFT loss),另一个是q2i的对比学习InfoNCE loss。query塔和item塔共享参数,他们的emb都是最后一个特殊token <emb> 的emb。 Loss组合: 2.3 RL微调 上一步的SFT主要进行模仿学习,模仿更大的大模型的think能力,小模型本身的reasoning能力受限,接下来需要用GRPO对小模型进行RL微调。RL微调同时对生产CoT和生产emb两个任务都有作用,具体看下面的reward: RL微调设计了3个reward: Format Reward:产出的CoT格式符合“<think> Specific CoT </think><emb>”就得1分,否则得0分 Length Reward:产出的CoT格式符合长度限制(<=16)就得1分,否则得0分 Retrieval Accuracy Reward:联合原始query和产出的CoT产出的增强query emb,与batch内所有的item emb求相似度,正确item所在的排名为\(rank(d_i)\),再根据公式12计算一个排名的reward。核心思想是:正确的item与query的相似度排名越高则reward越大(即rank值越小则reward越大)。 最后,上述3个reward通过三个β系数组合起来: ...

December 13, 2025 · 1 min