论文阅读:OneSearch-V2: The Latent Reasoning Enhanced Self-distillation Generative Search Framework
这篇论文是OneSearch-V1的升级版,建议先看OneSearch-V1的论文解读。 基本信息 论文标题:OneSearch-V2: The Latent Reasoning Enhanced Self-distillation Generative Search Framework 作者单位:快手 论文链接:https://arxiv.org/abs/2603.24422 来源:arxiv Motivation:论文要解决的问题是什么 OneSearch-V1上线之后,存在如下三个问题: 对复杂query的理解能力不够。复杂query包括两部分,一部分是头部泛词query,比如“室内健身器材”,这种query太泛了,query可能和很多商品都有关联,导致GR不知道召回哪个(which to retrieve)。另一部分是尾部稀有query,比如“没有破洞的牛仔裤”,这种query很长有很多约束条件,比如有否定、有问句等,导致GR难以理解,不知道该召回什么(what can be retrieved)。 个性化推理能力不足。如果说上一个问题是对复杂query本身的理解,那么这个问题就是结合用户个性化的query理解。比如某用户对特定品种的鲜花过敏,当该用户搜索“当季鲜花”时,需要首先推理出现在的季节,然后推理出这个季节流行的鲜花,最终判断这种鲜花和用户过敏的鲜花是否同品种。如果是同品种,即使这种鲜花是当季热销,也不能展示给用户。因此,这一问题考验GR结合用户个性化的推理能力。 奖励模型性能不足。OneSearch-V1的奖励模型依赖传统精排模型,效果受限。此外常规的奖励模型对item整体一个奖励得分,但是item是通过SID序列组成的,对item整体进行奖惩的话,相当于对所有位置的SID都一视同仁,无法区分不同位置SID的难度和重要性。 所以小结一下,OneSearch-V2重点要增强的是GR的reasoning推理能力,无论是对query的理解,还是对user的理解,都需要强大的推理能力。另外奖励模型的更新就是常规操作肯定要升级的。 思考增强的Query理解 为了增强GR对复杂query的理解能力,本文首先利用LLM(Qwen3-32B)对query进行理解和分析,把分析结果存成CoT;然后构造CoT SFT微调任务,通过CoT微调GR,把LLM对复杂query的理解能力注入到GR中。 具体来说,如图Fig3所示,利用LLM对query进行如下3个步骤的分析: Query分析(Query Analysis),包括四个维度:意图理解、类目预测、属性识别、主题推荐,其中意图理解需要分析本次搜索的意图是商品搜索、店铺搜索、还是短视频直播这些。 对于意图理解是商品搜索的query,再次进行关键词抽取(Keyword Extraction):通过LLM推理出和query相关的关键词,需要考虑检索意图、类目约束、属性一致性和格式约束等。 偏好校准(Preference Calibration):基于用户的基础信息和历史行为流,对上一步推理出来的关键词进行增删改,只保留和用户相关的关键词 上述三个步骤是依次串行进行的,上一步的输出作为下一步的输入,一步步不断细化分析扩展得到与Query相关的个性化的关键词。其中第二步得到的是非个性化的关键词,即<query, keywords>元组;第三步得到的是个性化的关键词,即<query, user, keywords>。通过这些数据就可以构造query→keywords的四类CoT任务,如图Fig3底部。进一步地,在SFT微调GR的第一阶段,加入这些CoT微调任务,得以显著增强GR对复杂query的理解能力,如下表Table2的stage1加粗部分。 小结一下,这个模块的核心是利用更大的LLM标注出一些与query/user相关的keywords,然后通过CoT SFT的方式把LLM的推理能力蒸馏到GR中。 自蒸馏赋予GR内生推理能力 预实验 作者在OneSearch-V1(即下表Table 3中的baseline)的基础上,新增了上一节介绍的CoT微调任务(即\+CoT tasks),结果表明各项指标都有提升,说明增强GR的推理能力是有帮助的。但是CoT tasks中的CoT毕竟来源于LLM离线打标,耗时很长,不可能进行在线实时推理。如果能将LLM对query的推理能力内化到GR模型中,则可以省掉LLM对query的推理打标,显著节省链路耗时。 为此,作者首先做了两个预实验,如表Table 3所示: +direct CoT:即直接用baseline做推理,然后基于推理CoT进行生成式搜索 +RAG:在baseline基础上,把LLM对query推理出来的keywords作为额外特征输入到GR中,再进行生成式搜索 作者发现,直接让GR进行CoT推理的+direct CoT效果很差,说明现有GR缺乏推理能力。而把LLM推理出来的keywords作为额外特征的+RAG效果很好,说明LLM推理能力对GR很有帮助。 \+CoT tasks有效果已经说明通过CoT SFT的方式能够提升GR的效果,本节进一步利用自蒸馏的方式增强GR的推理能力。 自蒸馏 自蒸馏的思想也比较简单,简单理解就是优势特征蒸馏。如图Fig2a所示,这部分就是上一节介绍的利用LLM推理出扩展keywords的过程。Fig2b的Shared Info就是OneSearch-V1的输入特征,而Fig2a产出的扩展keywords相比于Shared Info就是优势特征。 如图Fig2b所示,教师模型和学生模型共享相同的模型参数,他们都有Shared Info作为公共的特征输入,但是教师模型还多包含扩展keywords作为优势特征输入。根据上面Table 3的结果,+RAG就是教师模型,它的效果明显好于学生模型。自蒸馏的过程就是把包含优势特征的教师模型蒸馏到学生模型上。 形式化描述如下。学生模型输入: ...