论文阅读:OneSearch: A Preliminary Exploration of the Unified End-to-End Generative Framework for E-commerce Search

基本信息 论文标题:OneSearch: A Preliminary Exploration of the Unified End-to-End Generative Framework for E-commerce Search 作者单位:快手 论文链接:https://arxiv.org/pdf/2509.03236 来源:arxiv ICLR2026被拒,审稿意见:https://openreview.net/forum?id=eDh0K9YNoL Motivation:论文要解决的问题是什么 如图Fig1所示,传统搜索系统需要依次经过召回、粗排、精排等多个级联环节,存在计算碎片化、且不同阶段目标不一致的问题,导致整个系统效率较低且上限较低。本文提出的OneSearch就是整个搜索系统只使用一个生成式模型,直接从用户请求端到端生成候选商品,从而取代召回-粗排-精排这种级联系统。 整体结构图 整体结构图如Fig4所示,整体思路如下: 表征体系,对应Fig4a-c:把庞大且稀疏的item id转换成紧凑且稠密的semantic id(SID),方便LLM模型做scaling up 特征体系,对应Fig4d:把电商中异构的用户、商品、搜索等各种特征统一到SID体系中,即统一LLM输入token 模型架构,对应Fig4e:有了统一的输入token表示,模型就是各种Transformer变种,因为是生成式,所以必须要有decoder 模型训练,对应Fig4f:训练生成式模型的步骤通常是先SFT预训练,再RL微调,重点关注本文设计的预训练和微调任务 SID生成方法 如图Fig4a-c所示,SID生成通常需要两个步骤,一是预训练embedding模型,二是将产出的embedding通过量化方式压缩成SID。本文在基础方法上进行了若干优化,具体如下: 预训练表征模型 该步骤通常基于开源的表征模型,使用电商的协同信号进行微调,使得embedding既能表征语义含义,又能感知电商的协同信号。 具体来说,本文基于ItemCF、Swing等召回模型,从线上日志中收集了大量相似的q2q、i2i、q2i的二元组作为正样本pair,然后如图Fig4a所示,使用对比学习的方式微调开源的BGE表征模型。本文做的几点改进如下: 特征层面,使用的特征包括:query text, item title, item price, keywords, OCR (image-to-text), as well as the statistical business characteristics, such as the number of clicks, add-to-cart, and purchases during a certain time。既有文本特征,也有数值统计特征,虽然没有用原始图片,但是有图片的OCR特征 样本层面,用开源的BGE对所有的正样本pair先进行粗过滤,把相似度<0.6的pair去掉,只保留高质量正样本pair 微调任务层面,包括q2q、i2i、q2i,这三个是常规的对比学习任务,另外还新增了2个特殊任务 rank任务:q2i分为show、click、order不同级别,且使用margin loss区分三者重要层度:show<click<order relevance任务:使用LLM打标query和item的相关性分,然后让BGE微调学习这个相关性分,增强表征的相关性判别能力 最后所有loss融合如下: $$\mathcal{L}_{\text{align}} = \lambda_1 \cdot \mathcal{L}_{\text{q2q}} + \lambda_2 \cdot \mathcal{L}_{\text{i2i}} + \lambda_3 \cdot \mathcal{L}_{\text{q2i}} + \lambda_4 \cdot \mathcal{L}_{\text{rank}} + \lambda_5 \cdot \mathcal{L}_{\text{rel}}, \quad (1)$$关键词增强的query和item表征 作者认为query和item的文本描述中存在大量堆砌甚至冲突的属性,为了去噪且提取核心关键属性,作者使用Qwen-VL提取商品的核心关键词k,然后把这些关键词输入到上一步微调的BGE模型中,产出多个关键词的表征\(e_k^j\),然后将多个关键词表征求平均,最后再和商品原始表征\(e_i\)求平均,得到关键词增强的商品表征\(e_i^o\)。流程见图Fig4b,公式如下: ...

May 24, 2026 · 2 min

论文阅读:Generative Recommendation with Semantic IDs: A Practitioner’s Handbook

基本信息 论文标题:Generative Recommendation with Semantic IDs: A Practitioner’s Handbook 作者单位:Snap 论文链接:https://arxiv.org/pdf/2507.22224 来源:CIKM 2025 这是CIKM 2025的一篇resource文章,比较简单。核心内容是开源了一个基于semantic id的生成式推荐框架GRID,可以很方便地做各种消融对比实验。 主要内容 主要结论如下: 对于semantic id生成算法,简单的RQ-KMeans效果反而是最好的,好于R-VQ和RQ-VAE 生产pretrain emb的LLM模型参数量越大,效果越好,但是提升幅度有限 生产semantic id的codebook size和网络层数并不是越大越好,常规的3层,每层256个id效果反而最好 生成式推荐时,是否需要在用户行为序列基础上增加一个user id,实验发现增加user id效果反而变差,不增加user id效果最好 生成式网络结构encoder-decoder对比decoder-only,发现前者效果更好,因为前者能充分学习到行为序列完整的信息 对行为流进行滑动窗口数据增强能提升模型的泛化能力 当semantic id到item存在映射冲突时,随机选一个item的效果和对冲突item追加一个区分标识(digit),两者效果差不多 在生成式beam search的时候,限制只输出合法semantic id和不增加限制,两者效果差不多 评论 看这篇文章主要是想看看不同semantic id生产方法的对比,发现RQ-KMeans居然比RQ-VAE更好。个人感觉这两个方法效果应该差不多,后者应该更好点才对。首先,RQ-VAE的量化loss本质上和KMeans聚类是一个意思;其次,RQ-VAE还增加了一个重构loss,感觉产出来的semantic id和原始emb的信息损失应该更少。 此外,本文的所有实验都是基于亚马逊的公开数据集,数据量肯定不能和真正的工业数据集相提并论,所以文中很多结论有可能只适用于本文的设定,换一个场景估计结论就变了,所以看看就好。 最后,文中很多结论只写了现象,要是能增加原因分析就好了。

October 7, 2025 · 1 min