<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>小红书 on bitJoy</title><link>https://bitjoy.net/tags/%E5%B0%8F%E7%BA%A2%E4%B9%A6/</link><description>Recent content in 小红书 on bitJoy</description><generator>Hugo -- 0.148.2</generator><language>en</language><lastBuildDate>Sun, 14 Jun 2026 15:02:19 +0800</lastBuildDate><atom:link href="https://bitjoy.net/tags/%E5%B0%8F%E7%BA%A2%E4%B9%A6/index.xml" rel="self" type="application/rss+xml"/><item><title>论文阅读：UniNote: A Unified Embedding Model for Multimodal Representation and Ranking</title><link>https://bitjoy.net/posts/2026-06-14-xiaohongshu-uninote-paper-reading/</link><pubDate>Sun, 14 Jun 2026 15:02:19 +0800</pubDate><guid>https://bitjoy.net/posts/2026-06-14-xiaohongshu-uninote-paper-reading/</guid><description>&lt;p>&lt;img loading="lazy" src="https://bitjoy.net/posts/2026-06-14-xiaohongshu-uninote-paper-reading/UniNote-paper-cover.png">&lt;/p>
&lt;h1 id="基本信息">基本信息&lt;/h1>
&lt;ul>
&lt;li>论文标题：UniNote: A Unified Embedding Model for Multimodal Representation and Ranking&lt;/li>
&lt;li>作者单位：小红书&lt;/li>
&lt;li>论文链接：&lt;a href="https://arxiv.org/abs/2605.29287">https://arxiv.org/abs/2605.29287&lt;/a>&lt;/li>
&lt;li>来源：KDD Ads Track 2026&lt;/li>
&lt;/ul>
&lt;h1 id="motivation论文要解决的问题是什么">Motivation：论文要解决的问题是什么&lt;/h1>
&lt;p>小红书的笔记是一个非常典型的多模态item，一篇小红书笔记通常包括多张图片、标题、主题文字等，有的甚至还有视频。小红书使用传统多模态emb做I2I召回时，遇到如下几个问题：&lt;/p>
&lt;ul>
&lt;li>传统基于CLIP的方法学习的是item整体的表征，缺乏对模态细节的学习。而且这种方法多模态特征是晚交互的late interaction，多模态融合的效果不佳。&lt;/li>
&lt;li>基于MLLM的方法在item全局表征上的效果还可以，但是细粒度表征效果不佳。特别是小红书场景用一张图片检索整个笔记的情况，即local-to-global的检索场景。&lt;/li>
&lt;li>现有基于对比学习微调的多模态emb（例如小红书之前的NoteLLM-2），融入了协同信号，已经不能完全客观反应I2I的语义相似性了，虽然这些emb的召回效果还可以，但是排序效果较差，后续还需要很复杂的单塔排序模型。即这种retrieve-then-rerank需要两个模型，维护成本较高。&lt;/li>
&lt;/ul>
&lt;p>针对上述小红书场景的复杂I2I召回问题，本文设计了一个同时适用于表征和排序的emb模型，重点解决了多粒度模态对齐的问题（比如local-to-global的问题）以及增强了emb的排序能力。&lt;/p>
&lt;h1 id="整体流程">整体流程&lt;/h1>
&lt;p>整体流程如图Fig2所示：&lt;/p>
&lt;ul>
&lt;li>首先根据业务需求设计对齐任务，构造预训练数据&lt;/li>
&lt;li>然后进行对比学习预训练&lt;/li>
&lt;li>最后使用RL微调模型的排序能力
其中前两步是常规操作，只不过根据小红书的业务需求进行了特定的设计，第三步的RL微调是比较重要的创新点。&lt;/li>
&lt;/ul>
&lt;p>&lt;img loading="lazy" src="https://bitjoy.net/posts/2026-06-14-xiaohongshu-uninote-paper-reading/UniNote-paper-fig2.png">&lt;/p>
&lt;h1 id="对齐任务及预训练数据">对齐任务及预训练数据&lt;/h1>
&lt;p>如下表Table 1所示，本文共设计了5类10个对齐任务：&lt;/p>
&lt;ul>
&lt;li>原子对齐：笔记中单张图片和笔记文字的对齐&lt;/li>
&lt;li>从属召回：笔记中单张图片或文字片段与笔记整体的对齐&lt;/li>
&lt;li>语义抽取：笔记整体召回笔记中单张图片或文字片段&lt;/li>
&lt;li>OCR能力：图片和OCR，OCR和笔记整体&lt;/li>
&lt;li>内容相关性：笔记和笔记整体的对齐
可以看到对齐任务非常多，包括不同模态的对齐、local和local的对齐、local和global的对齐、global和global的对齐。这10个任务前9个任务都可以从同一个笔记中挖掘出训练样本，唯独最后一个笔记和笔记的对齐，需要业务知识进行构造，文中没有介绍如何构造笔记正样本pair的。&lt;/li>
&lt;/ul>
&lt;p>&lt;img loading="lazy" src="https://bitjoy.net/posts/2026-06-14-xiaohongshu-uninote-paper-reading/UniNote-paper-table1.png">&lt;/p>
&lt;p>在从属召回任务中，通常可以把笔记中的一张图片\(I_i\)和笔记整体\(\mathcal{N}\)作为正样本二元组\((I_i,\mathcal{N})\)，但是因为\(I_i\in \mathcal{N}\)，作者担心这么训练可能让模型学习到捷径，所以把\(I_i\)从\(\mathcal{N}\)中剔除掉，但加上了\(I_i\)的文本描述\(\{S_{\text{desc}}^i\}\)，作为一个新的正样本\(\mathcal{N}'\)：&lt;/p>
$$
(I_i, \mathcal{N}'), \quad \text{where} \quad \mathcal{N}' = \{S_{\text{desc}}^i\} \cup \mathcal{N} \setminus \{I_i\} \tag{2}
$$&lt;p>在负样本构造方面，作者重点介绍了两种负样本构造方法：&lt;/p>
&lt;p>第一种方法是中等难度的负例。对于锚点\(q\)，从全部候选商品池\(\mathcal{P}\)中，圈一部分与\(q\)相似度在\([\tau_{\min},\tau_{\max}]\)之间的子集\(\mathcal{P}'\)，作为\(q\)的难负例。在算相似度时，这一步使用一个基础版的emb模型\(\phi\)，可能是开源的或者比较弱的emb模型。&lt;/p>
$$
\mathcal{P}' = \{c \in \mathcal{P} \mid \tau_{\min} \le \text{sim}(\phi(q), \phi(c)) \le \tau_{\max}\}, \tag{3}
$$&lt;p>第二种方法是高难度负例，文中称为heuristic rules based方法。特别是针对local-to-global对齐任务，下面公式5给的是负例，负例是直接把\(I_i\)从\(\mathcal{N}\)中剔除就是负例；上面公式2给的是正例，相当于在负例基础上增加了\(I_i\)的文本描述\(\{S_{\text{desc}}^i\}\)。公式5的负例感觉过于难了。&lt;/p></description></item></channel></rss>