<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>生成式 on bitJoy</title><link>https://bitjoy.net/tags/%E7%94%9F%E6%88%90%E5%BC%8F/</link><description>Recent content in 生成式 on bitJoy</description><generator>Hugo -- 0.148.2</generator><language>en</language><lastBuildDate>Sun, 24 May 2026 09:10:24 +0800</lastBuildDate><atom:link href="https://bitjoy.net/tags/%E7%94%9F%E6%88%90%E5%BC%8F/index.xml" rel="self" type="application/rss+xml"/><item><title>论文阅读：OneSearch: A Preliminary Exploration of the Unified End-to-End Generative Framework for E-commerce Search</title><link>https://bitjoy.net/posts/2026-05-24-kuaishou-onesearch-v1-paper-reading/</link><pubDate>Sun, 24 May 2026 09:10:24 +0800</pubDate><guid>https://bitjoy.net/posts/2026-05-24-kuaishou-onesearch-v1-paper-reading/</guid><description>&lt;p>&lt;img loading="lazy" src="https://bitjoy.net/posts/2026-05-24-kuaishou-onesearch-v1-paper-reading/onesearch-v1-cover.png">&lt;/p>
&lt;h1 id="基本信息">基本信息&lt;/h1>
&lt;ul>
&lt;li>论文标题：OneSearch: A Preliminary Exploration of the Unified End-to-End Generative Framework for E-commerce Search&lt;/li>
&lt;li>作者单位：快手&lt;/li>
&lt;li>论文链接：&lt;a href="https://arxiv.org/pdf/2509.03236">https://arxiv.org/pdf/2509.03236&lt;/a>&lt;/li>
&lt;li>来源：arxiv&lt;/li>
&lt;li>ICLR2026被拒，审稿意见：&lt;a href="https://openreview.net/forum?id=eDh0K9YNoL">https://openreview.net/forum?id=eDh0K9YNoL&lt;/a>&lt;/li>
&lt;/ul>
&lt;h1 id="motivation论文要解决的问题是什么">Motivation：论文要解决的问题是什么&lt;/h1>
&lt;p>如图Fig1所示，传统搜索系统需要依次经过召回、粗排、精排等多个级联环节，存在计算碎片化、且不同阶段目标不一致的问题，导致整个系统效率较低且上限较低。本文提出的OneSearch就是整个搜索系统只使用一个生成式模型，直接从用户请求端到端生成候选商品，从而取代召回-粗排-精排这种级联系统。&lt;/p>
&lt;p>&lt;img loading="lazy" src="https://bitjoy.net/posts/2026-05-24-kuaishou-onesearch-v1-paper-reading/onesearch-v1-fig1.png">&lt;/p>
&lt;h1 id="整体结构图">整体结构图&lt;/h1>
&lt;p>整体结构图如Fig4所示，整体思路如下：&lt;/p>
&lt;ul>
&lt;li>表征体系，对应Fig4a-c：把庞大且稀疏的item id转换成紧凑且稠密的semantic id（SID），方便LLM模型做scaling up&lt;/li>
&lt;li>特征体系，对应Fig4d：把电商中异构的用户、商品、搜索等各种特征统一到SID体系中，即统一LLM输入token&lt;/li>
&lt;li>模型架构，对应Fig4e：有了统一的输入token表示，模型就是各种Transformer变种，因为是生成式，所以必须要有decoder&lt;/li>
&lt;li>模型训练，对应Fig4f：训练生成式模型的步骤通常是先SFT预训练，再RL微调，重点关注本文设计的预训练和微调任务&lt;/li>
&lt;/ul>
&lt;p>&lt;img loading="lazy" src="https://bitjoy.net/posts/2026-05-24-kuaishou-onesearch-v1-paper-reading/onesearch-v1-fig4.png">&lt;/p>
&lt;h1 id="sid生成方法">SID生成方法&lt;/h1>
&lt;p>如图Fig4a-c所示，SID生成通常需要两个步骤，一是预训练embedding模型，二是将产出的embedding通过量化方式压缩成SID。本文在基础方法上进行了若干优化，具体如下：&lt;/p>
&lt;h2 id="预训练表征模型">预训练表征模型&lt;/h2>
&lt;p>该步骤通常基于开源的表征模型，使用电商的协同信号进行微调，使得embedding既能表征语义含义，又能感知电商的协同信号。&lt;/p>
&lt;p>具体来说，本文基于ItemCF、Swing等召回模型，从线上日志中收集了大量相似的q2q、i2i、q2i的二元组作为正样本pair，然后如图Fig4a所示，使用对比学习的方式微调开源的BGE表征模型。本文做的几点改进如下：&lt;/p>
&lt;ul>
&lt;li>特征层面，使用的特征包括：query text, item title, item price, keywords, OCR (image-to-text), as well as the statistical business characteristics, such as the number of clicks, add-to-cart, and purchases during a certain time。既有文本特征，也有数值统计特征，虽然没有用原始图片，但是有图片的OCR特征&lt;/li>
&lt;li>样本层面，用开源的BGE对所有的正样本pair先进行粗过滤，把相似度&amp;lt;0.6的pair去掉，只保留高质量正样本pair&lt;/li>
&lt;li>微调任务层面，包括q2q、i2i、q2i，这三个是常规的对比学习任务，另外还新增了2个特殊任务
&lt;ul>
&lt;li>rank任务：q2i分为show、click、order不同级别，且使用margin loss区分三者重要层度：show&amp;lt;click&amp;lt;order&lt;/li>
&lt;li>relevance任务：使用LLM打标query和item的相关性分，然后让BGE微调学习这个相关性分，增强表征的相关性判别能力&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>最后所有loss融合如下：&lt;/li>
&lt;/ul>
$$\mathcal{L}_{\text{align}} = \lambda_1 \cdot \mathcal{L}_{\text{q2q}} + \lambda_2 \cdot \mathcal{L}_{\text{i2i}} + \lambda_3 \cdot \mathcal{L}_{\text{q2i}} + \lambda_4 \cdot \mathcal{L}_{\text{rank}} + \lambda_5 \cdot \mathcal{L}_{\text{rel}}, \quad (1)$$&lt;h2 id="关键词增强的query和item表征">关键词增强的query和item表征&lt;/h2>
&lt;p>作者认为query和item的文本描述中存在大量堆砌甚至冲突的属性，为了去噪且提取核心关键属性，作者使用Qwen-VL提取商品的核心关键词k，然后把这些关键词输入到上一步微调的BGE模型中，产出多个关键词的表征\(e_k^j\)，然后将多个关键词表征求平均，最后再和商品原始表征\(e_i\)求平均，得到关键词增强的商品表征\(e_i^o\)。流程见图Fig4b，公式如下：&lt;/p></description></item><item><title>论文阅读：Generative Recommendation with Semantic IDs: A Practitioner’s Handbook</title><link>https://bitjoy.net/posts/2025-10-07-grid-paper-reading/</link><pubDate>Tue, 07 Oct 2025 12:09:43 +0800</pubDate><guid>https://bitjoy.net/posts/2025-10-07-grid-paper-reading/</guid><description>&lt;p>&lt;img loading="lazy" src="https://bitjoy.net/posts/2025-10-07-grid-paper-reading/GRID-paper-cover.png">&lt;/p>
&lt;h1 id="基本信息">基本信息&lt;/h1>
&lt;ul>
&lt;li>论文标题：Generative Recommendation with Semantic IDs: A Practitioner’s Handbook&lt;/li>
&lt;li>作者单位：Snap&lt;/li>
&lt;li>论文链接：&lt;a href="https://arxiv.org/pdf/2507.22224">https://arxiv.org/pdf/2507.22224&lt;/a>&lt;/li>
&lt;li>来源：CIKM 2025&lt;/li>
&lt;/ul>
&lt;p>这是CIKM 2025的一篇resource文章，比较简单。核心内容是开源了一个基于semantic id的生成式推荐框架GRID，可以很方便地做各种消融对比实验。&lt;/p>
&lt;p>&lt;img loading="lazy" src="https://bitjoy.net/posts/2025-10-07-grid-paper-reading/GRID-fig1.png">&lt;/p>
&lt;h1 id="主要内容">主要内容&lt;/h1>
&lt;p>主要结论如下：&lt;/p>
&lt;ul>
&lt;li>对于semantic id生成算法，简单的RQ-KMeans效果反而是最好的，好于R-VQ和RQ-VAE&lt;/li>
&lt;li>生产pretrain emb的LLM模型参数量越大，效果越好，但是提升幅度有限&lt;/li>
&lt;li>生产semantic id的codebook size和网络层数并不是越大越好，常规的3层，每层256个id效果反而最好&lt;/li>
&lt;li>生成式推荐时，是否需要在用户行为序列基础上增加一个user id，实验发现增加user id效果反而变差，不增加user id效果最好&lt;/li>
&lt;li>生成式网络结构encoder-decoder对比decoder-only，发现前者效果更好，因为前者能充分学习到行为序列完整的信息&lt;/li>
&lt;li>对行为流进行滑动窗口数据增强能提升模型的泛化能力&lt;/li>
&lt;li>当semantic id到item存在映射冲突时，随机选一个item的效果和对冲突item追加一个区分标识（digit），两者效果差不多&lt;/li>
&lt;li>在生成式beam search的时候，限制只输出合法semantic id和不增加限制，两者效果差不多&lt;/li>
&lt;/ul>
&lt;h1 id="评论">评论&lt;/h1>
&lt;p>看这篇文章主要是想看看不同semantic id生产方法的对比，发现RQ-KMeans居然比RQ-VAE更好。个人感觉这两个方法效果应该差不多，后者应该更好点才对。首先，RQ-VAE的量化loss本质上和KMeans聚类是一个意思；其次，RQ-VAE还增加了一个重构loss，感觉产出来的semantic id和原始emb的信息损失应该更少。&lt;/p>
&lt;p>此外，本文的所有实验都是基于亚马逊的公开数据集，数据量肯定不能和真正的工业数据集相提并论，所以文中很多结论有可能只适用于本文的设定，换一个场景估计结论就变了，所以看看就好。&lt;/p>
&lt;p>最后，文中很多结论只写了现象，要是能增加原因分析就好了。&lt;/p></description></item></channel></rss>