生成式 | bitJoy

论文阅读：OneSearch-V2: The Latent Reasoning Enhanced Self-distillation Generative Search Framework

这篇论文是OneSearch-V1的升级版，建议先看OneSearch-V1的论文解读。基本信息论文标题：OneSearch-V2: The Latent Reasoning Enhanced Self-distillation Generative Search Framework 作者单位：快手论文链接：https://arxiv.org/abs/2603.24422 来源：arxiv Motivation：论文要解决的问题是什么 OneSearch-V1上线之后，存在如下三个问题：对复杂query的理解能力不够。复杂query包括两部分，一部分是头部泛词query，比如“室内健身器材”，这种query太泛了，query可能和很多商品都有关联，导致GR不知道召回哪个（which to retrieve）。另一部分是尾部稀有query，比如“没有破洞的牛仔裤”，这种query很长有很多约束条件，比如有否定、有问句等，导致GR难以理解，不知道该召回什么（what can be retrieved）。个性化推理能力不足。如果说上一个问题是对复杂query本身的理解，那么这个问题就是结合用户个性化的query理解。比如某用户对特定品种的鲜花过敏，当该用户搜索“当季鲜花”时，需要首先推理出现在的季节，然后推理出这个季节流行的鲜花，最终判断这种鲜花和用户过敏的鲜花是否同品种。如果是同品种，即使这种鲜花是当季热销，也不能展示给用户。因此，这一问题考验GR结合用户个性化的推理能力。奖励模型性能不足。OneSearch-V1的奖励模型依赖传统精排模型，效果受限。此外常规的奖励模型对item整体一个奖励得分，但是item是通过SID序列组成的，对item整体进行奖惩的话，相当于对所有位置的SID都一视同仁，无法区分不同位置SID的难度和重要性。所以小结一下，OneSearch-V2重点要增强的是GR的reasoning推理能力，无论是对query的理解，还是对user的理解，都需要强大的推理能力。另外奖励模型的更新就是常规操作肯定要升级的。思考增强的Query理解为了增强GR对复杂query的理解能力，本文首先利用LLM（Qwen3-32B）对query进行理解和分析，把分析结果存成CoT；然后构造CoT SFT微调任务，通过CoT微调GR，把LLM对复杂query的理解能力注入到GR中。具体来说，如图Fig3所示，利用LLM对query进行如下3个步骤的分析： Query分析（Query Analysis），包括四个维度：意图理解、类目预测、属性识别、主题推荐，其中意图理解需要分析本次搜索的意图是商品搜索、店铺搜索、还是短视频直播这些。对于意图理解是商品搜索的query，再次进行关键词抽取（Keyword Extraction）：通过LLM推理出和query相关的关键词，需要考虑检索意图、类目约束、属性一致性和格式约束等。偏好校准（Preference Calibration）：基于用户的基础信息和历史行为流，对上一步推理出来的关键词进行增删改，只保留和用户相关的关键词上述三个步骤是依次串行进行的，上一步的输出作为下一步的输入，一步步不断细化分析扩展得到与Query相关的个性化的关键词。其中第二步得到的是非个性化的关键词，即<query, keywords>元组；第三步得到的是个性化的关键词，即<query, user, keywords>。通过这些数据就可以构造query→keywords的四类CoT任务，如图Fig3底部。进一步地，在SFT微调GR的第一阶段，加入这些CoT微调任务，得以显著增强GR对复杂query的理解能力，如下表Table2的stage1加粗部分。小结一下，这个模块的核心是利用更大的LLM标注出一些与query/user相关的keywords，然后通过CoT SFT的方式把LLM的推理能力蒸馏到GR中。自蒸馏赋予GR内生推理能力预实验作者在OneSearch-V1（即下表Table 3中的baseline）的基础上，新增了上一节介绍的CoT微调任务（即\+CoT tasks），结果表明各项指标都有提升，说明增强GR的推理能力是有帮助的。但是CoT tasks中的CoT毕竟来源于LLM离线打标，耗时很长，不可能进行在线实时推理。如果能将LLM对query的推理能力内化到GR模型中，则可以省掉LLM对query的推理打标，显著节省链路耗时。为此，作者首先做了两个预实验，如表Table 3所示： +direct CoT：即直接用baseline做推理，然后基于推理CoT进行生成式搜索 +RAG：在baseline基础上，把LLM对query推理出来的keywords作为额外特征输入到GR中，再进行生成式搜索作者发现，直接让GR进行CoT推理的+direct CoT效果很差，说明现有GR缺乏推理能力。而把LLM推理出来的keywords作为额外特征的+RAG效果很好，说明LLM推理能力对GR很有帮助。 \+CoT tasks有效果已经说明通过CoT SFT的方式能够提升GR的效果，本节进一步利用自蒸馏的方式增强GR的推理能力。自蒸馏自蒸馏的思想也比较简单，简单理解就是优势特征蒸馏。如图Fig2a所示，这部分就是上一节介绍的利用LLM推理出扩展keywords的过程。Fig2b的Shared Info就是OneSearch-V1的输入特征，而Fig2a产出的扩展keywords相比于Shared Info就是优势特征。如图Fig2b所示，教师模型和学生模型共享相同的模型参数，他们都有Shared Info作为公共的特征输入，但是教师模型还多包含扩展keywords作为优势特征输入。根据上面Table 3的结果，+RAG就是教师模型，它的效果明显好于学生模型。自蒸馏的过程就是把包含优势特征的教师模型蒸馏到学生模型上。形式化描述如下。学生模型输入： ...

论文阅读：OneSearch: A Preliminary Exploration of the Unified End-to-End Generative Framework for E-commerce Search

基本信息论文标题：OneSearch: A Preliminary Exploration of the Unified End-to-End Generative Framework for E-commerce Search 作者单位：快手论文链接：https://arxiv.org/pdf/2509.03236 来源：arxiv ICLR2026被拒，审稿意见：https://openreview.net/forum?id=eDh0K9YNoL Motivation：论文要解决的问题是什么如图Fig1所示，传统搜索系统需要依次经过召回、粗排、精排等多个级联环节，存在计算碎片化、且不同阶段目标不一致的问题，导致整个系统效率较低且上限较低。本文提出的OneSearch就是整个搜索系统只使用一个生成式模型，直接从用户请求端到端生成候选商品，从而取代召回-粗排-精排这种级联系统。整体结构图整体结构图如Fig4所示，整体思路如下：表征体系，对应Fig4a-c：把庞大且稀疏的item id转换成紧凑且稠密的semantic id（SID），方便LLM模型做scaling up 特征体系，对应Fig4d：把电商中异构的用户、商品、搜索等各种特征统一到SID体系中，即统一LLM输入token 模型架构，对应Fig4e：有了统一的输入token表示，模型就是各种Transformer变种，因为是生成式，所以必须要有decoder 模型训练，对应Fig4f：训练生成式模型的步骤通常是先SFT预训练，再RL微调，重点关注本文设计的预训练和微调任务 SID生成方法如图Fig4a-c所示，SID生成通常需要两个步骤，一是预训练embedding模型，二是将产出的embedding通过量化方式压缩成SID。本文在基础方法上进行了若干优化，具体如下：预训练表征模型该步骤通常基于开源的表征模型，使用电商的协同信号进行微调，使得embedding既能表征语义含义，又能感知电商的协同信号。具体来说，本文基于ItemCF、Swing等召回模型，从线上日志中收集了大量相似的q2q、i2i、q2i的二元组作为正样本pair，然后如图Fig4a所示，使用对比学习的方式微调开源的BGE表征模型。本文做的几点改进如下：特征层面，使用的特征包括：query text, item title, item price, keywords, OCR (image-to-text), as well as the statistical business characteristics, such as the number of clicks, add-to-cart, and purchases during a certain time。既有文本特征，也有数值统计特征，虽然没有用原始图片，但是有图片的OCR特征样本层面，用开源的BGE对所有的正样本pair先进行粗过滤，把相似度<0.6的pair去掉，只保留高质量正样本pair 微调任务层面，包括q2q、i2i、q2i，这三个是常规的对比学习任务，另外还新增了2个特殊任务 rank任务：q2i分为show、click、order不同级别，且使用margin loss区分三者重要层度：show<click<order relevance任务：使用LLM打标query和item的相关性分，然后让BGE微调学习这个相关性分，增强表征的相关性判别能力最后所有loss融合如下： $$\mathcal{L}_{\text{align}} = \lambda_1 \cdot \mathcal{L}_{\text{q2q}} + \lambda_2 \cdot \mathcal{L}_{\text{i2i}} + \lambda_3 \cdot \mathcal{L}_{\text{q2i}} + \lambda_4 \cdot \mathcal{L}_{\text{rank}} + \lambda_5 \cdot \mathcal{L}_{\text{rel}}, \quad (1)$$关键词增强的query和item表征作者认为query和item的文本描述中存在大量堆砌甚至冲突的属性，为了去噪且提取核心关键属性，作者使用Qwen-VL提取商品的核心关键词k，然后把这些关键词输入到上一步微调的BGE模型中，产出多个关键词的表征$e_k^j$，然后将多个关键词表征求平均，最后再和商品原始表征$e_i$求平均，得到关键词增强的商品表征$e_i^o$。流程见图Fig4b，公式如下： ...

论文阅读：Generative Recommendation with Semantic IDs: A Practitioner’s Handbook

基本信息论文标题：Generative Recommendation with Semantic IDs: A Practitioner’s Handbook 作者单位：Snap 论文链接：https://arxiv.org/pdf/2507.22224 来源：CIKM 2025 这是CIKM 2025的一篇resource文章，比较简单。核心内容是开源了一个基于semantic id的生成式推荐框架GRID，可以很方便地做各种消融对比实验。主要内容主要结论如下：对于semantic id生成算法，简单的RQ-KMeans效果反而是最好的，好于R-VQ和RQ-VAE 生产pretrain emb的LLM模型参数量越大，效果越好，但是提升幅度有限生产semantic id的codebook size和网络层数并不是越大越好，常规的3层，每层256个id效果反而最好生成式推荐时，是否需要在用户行为序列基础上增加一个user id，实验发现增加user id效果反而变差，不增加user id效果最好生成式网络结构encoder-decoder对比decoder-only，发现前者效果更好，因为前者能充分学习到行为序列完整的信息对行为流进行滑动窗口数据增强能提升模型的泛化能力当semantic id到item存在映射冲突时，随机选一个item的效果和对冲突item追加一个区分标识（digit），两者效果差不多在生成式beam search的时候，限制只输出合法semantic id和不增加限制，两者效果差不多评论看这篇文章主要是想看看不同semantic id生产方法的对比，发现RQ-KMeans居然比RQ-VAE更好。个人感觉这两个方法效果应该差不多，后者应该更好点才对。首先，RQ-VAE的量化loss本质上和KMeans聚类是一个意思；其次，RQ-VAE还增加了一个重构loss，感觉产出来的semantic id和原始emb的信息损失应该更少。此外，本文的所有实验都是基于亚马逊的公开数据集，数据量肯定不能和真正的工业数据集相提并论，所以文中很多结论有可能只适用于本文的设定，换一个场景估计结论就变了，所以看看就好。最后，文中很多结论只写了现象，要是能增加原因分析就好了。