<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>相关性模型 on bitJoy</title><link>https://bitjoy.net/tags/%E7%9B%B8%E5%85%B3%E6%80%A7%E6%A8%A1%E5%9E%8B/</link><description>Recent content in 相关性模型 on bitJoy</description><generator>Hugo -- 0.148.2</generator><language>en</language><lastBuildDate>Sun, 05 Apr 2026 09:37:56 +0800</lastBuildDate><atom:link href="https://bitjoy.net/tags/%E7%9B%B8%E5%85%B3%E6%80%A7%E6%A8%A1%E5%9E%8B/index.xml" rel="self" type="application/rss+xml"/><item><title>论文阅读：LREF: A Novel LLM-based Relevance Framework for E-commerce</title><link>https://bitjoy.net/posts/2026-04-05-jd-lref-paper-reading/</link><pubDate>Sun, 05 Apr 2026 09:37:56 +0800</pubDate><guid>https://bitjoy.net/posts/2026-04-05-jd-lref-paper-reading/</guid><description>&lt;p>&lt;img loading="lazy" src="https://bitjoy.net/posts/2026-04-05-jd-lref-paper-reading/lref-cover.png">&lt;/p>
&lt;h1 id="基本信息">基本信息&lt;/h1>
&lt;ul>
&lt;li>论文标题：LREF: A Novel LLM-based Relevance Framework for E-commerce&lt;/li>
&lt;li>作者单位：京东&lt;/li>
&lt;li>论文链接：&lt;a href="https://arxiv.org/abs/2503.09223">https://arxiv.org/abs/2503.09223&lt;/a>&lt;/li>
&lt;li>来源：WWW25&lt;/li>
&lt;/ul>
&lt;h1 id="motivation论文要解决的问题是什么">Motivation：论文要解决的问题是什么&lt;/h1>
&lt;p>电商搜索相关性任务是指给定搜索词query和商品item，判断两者在语义上是否相关。针对这个问题，业界通常微调BERT来做判别式任务。随着LLM的兴起，大家都在尝试将LLM应用到搜索相关性任务上，但LLM做搜索相关性任务存在3个挑战：&lt;/p>
&lt;ul>
&lt;li>如何获得高质量数据。对于大模型微调来说，开源大模型本身已经具备很强的世界知识了，针对常规的(q,i)相关性问题已经能比较好地处理。微调进一步提升大模型效果的关键在于如何准备高质量的(q,i)相关性数据。&lt;/li>
&lt;li>LLM微调的时候，如何增强LLM在电商场景下根据特定规则进行推理的能力，即如何激发大模型按一定规则进行推理，再判断相关性&lt;/li>
&lt;li>大模型有时候过于仁慈，有时候倾向于把不相关的商品判断成很相关，如何纠正大模型的这种问题是个挑战&lt;/li>
&lt;/ul>
&lt;p>总之直接把LLM用到相关性判别问题上，有很多挑战，需要逐一解决。&lt;/p>
&lt;h1 id="数据筛选方法">数据筛选方法&lt;/h1>
&lt;p>首先需要认识到的是，电商相关性任务通常需要人工标注大量的(q,i,label)三元组数据来训练相关性模型。相关性label通常分为5档：Exact, Significant, Marginal, Trivial, and Irrelevant。&lt;/p>
&lt;p>作者发现LLM本身已经具备比较强的通识的相关性判别能力，需要重点加强的是LLM针对难例的相关性判别能力，故需要从大量人工标注数据中筛选出难例进行微调。此外，人工标注数据中也存在一些噪声，需要把这些噪声过滤掉。总之，在数据筛选这个环节，核心目标就是如何从大量人工标注数据中筛选出高质量的难例样本。&lt;/p>
&lt;p>如图Fig 1所示，作者微调了3个大模型来做数据筛选，3个大模型都是从开源的LLaMA-2-7B 开始微调：&lt;/p>
&lt;ul>
&lt;li>Initial Model (IM): 初始模型，从人工标注数据中随机采样(q,i,label)微调LLM得到。由于人工标注数据和线上曝光数据分布一致，即简单样本占大多数，故IM可识别常规简单的q-i相关性问题，但对长尾难例识别能力不足&lt;/li>
&lt;li>Challenge Identifier (CI): 把人工标注数据按照曝光分布划分成热门、腰部、尾部(q,i,label)，每一部分都采样等比例的样本，用来训练CI。其实本质上就是增加了腰尾部数据的占比，提升CI对中长尾样本（难例）的识别能力&lt;/li>
&lt;li>Mislabeled Supervisor (MS): 从人工标注数据中随机选一些样本(q,i,label)，问GPT当前标注结果label最有可能替换成哪个，如果GPT回答是label’，则说明label和label’都有可能是合理的。因此，进一步推测人工标注的时候，人类也可能出错，把label’误标成label（或反之）。故用(q,i,label’)数据微调MS，在后续数据筛选中，把MS预估结果作为潜在的错误结果&lt;/li>
&lt;/ul>
&lt;p>&lt;img loading="lazy" src="https://bitjoy.net/posts/2026-04-05-jd-lref-paper-reading/lref-fig1.png">&lt;/p>
&lt;p>微调得到上述3个模型之后，最终筛选出来的样本如下，L(x)表示人工标注结果。下面的数据有两个含义：&lt;/p>
&lt;ul>
&lt;li>难样本：IM预测错，CI预测对&lt;/li>
&lt;li>去掉噪声样本：如上所述，MS预估结果是潜在的错误结果，所以对于MS(x)=L(x)的样本，人工标注的L(x)也是潜在错误样本，需要把这些样本去掉，即条件MS(x)≠L(x)&lt;/li>
&lt;/ul>
&lt;p>&lt;img loading="lazy" src="https://bitjoy.net/posts/2026-04-05-jd-lref-paper-reading/lref-formula4.png">&lt;/p>
&lt;h1 id="多cot微调">多CoT微调&lt;/h1>
&lt;p>经过上面的环节，我们已经拿到了高质量的难样本(q,i,label)，接下来开始正式微调LLM进行相关性判别任务了。由于LLM都是decoder-only架构，在相关性判别的时候，增加CoT能激发LLM的推理能力，提升判别效果。为此，作者设计了3个CoT微调任务：&lt;/p>
&lt;ul>
&lt;li>专家解释：Expert Explaining Chain of Thought (EE-CoT)，把(q,i,label)喂给GPT，让GPT解释为什么q和i的相关性结果是label，得到EE-CoT，因此得到新的标注数据(q,i,label,EE-CoT)。微调相关性大模型的时候，喂给大模型(q,i)，让其输出EE-CoT和label。&lt;/li>
&lt;li>遵守规则：Rule Adherence Chain-of-Thought (RA-CoT)，把(rule, q, i, label)喂给GPT，让GPT根据rule，推导出q和i的相关性是label的过程，得到RA-CoT，因此得到新的标注数据(rule, q, i, label, RA-CoT)。微调相关性大模型的时候，喂给大模型(rule, q, i)，让其输出RA-CoT和label。&lt;/li>
&lt;li>决策反思：Decision Reflection Chain of Thought (DR-CoT)，对样本(q,i,label)随机生成错误结果incorrect decision，得到样本(incorrect decision,q,i,label)。把(incorrect decision,q,i,label)喂给GPT，让其分析incorrect decision为什么错误，并给出推导过程，得到DR-CoT，因此得到新的标注数据(incorrect decision,q,i,label,DR-CoT)。微调相关性大模型的时候，喂给大模型(incorrect decision,q,i)，让其输出DR-CoT和正确label。&lt;/li>
&lt;/ul>
&lt;p>简要总结一下，这个环节就是用GPT做CoT的伪标注，然后通过数据蒸馏的方式把CoT能力蒸馏到相关性大模型中。&lt;/p></description></item><item><title>论文阅读：Retentive Relevance: Capturing Long-Term User Value in Recommendation Systems</title><link>https://bitjoy.net/posts/2026-04-04-meta-retentive-relevance-paper-reading/</link><pubDate>Sat, 04 Apr 2026 17:22:20 +0800</pubDate><guid>https://bitjoy.net/posts/2026-04-04-meta-retentive-relevance-paper-reading/</guid><description>&lt;p>&lt;img loading="lazy" src="https://bitjoy.net/posts/2026-04-04-meta-retentive-relevance-paper-reading/meta-rr-cover.png">&lt;/p>
&lt;h1 id="基本信息">基本信息&lt;/h1>
&lt;ul>
&lt;li>论文标题：Retentive Relevance: Capturing Long-Term User Value in Recommendation Systems&lt;/li>
&lt;li>作者单位：Meta&lt;/li>
&lt;li>论文链接：&lt;a href="https://arxiv.org/abs/2510.07621">https://arxiv.org/abs/2510.07621&lt;/a>&lt;/li>
&lt;li>来源：arxiv&lt;/li>
&lt;/ul>
&lt;h1 id="motivation论文要解决的问题是什么">Motivation：论文要解决的问题是什么&lt;/h1>
&lt;p>现有推荐系统通常以用户的短期行为作为优化目标，例如用户的click、like等。但是这些短期信号通常存在噪声，且比较稀疏，而且难以捕捉用户的长期需求和留存情况。&lt;/p>
&lt;p>本文提出了一种基于调查问卷的留存相关性模型（Retentive Relevance），通过设计针对后续留存的调查问卷，直接获得用户的长期留存信号。并据此训练了一个长期留存模型，用此模型的打分来校准排序模型的打分，由此让推荐系统更加关注用户的长期留存价值。&lt;/p>
&lt;p>举个我自己脑补的例子：比如你刷抖音的时候点了一个段子手的搞笑视频，你看完了但是觉得并不搞笑，由于没有显式负反馈，推荐系统只能获取到你点击了这个视频，并且也看完了的正向信号，所以推荐系统在后续训练的时候会把这个搞笑视频当做正样本，再给你推荐类似的搞笑视频。这种以短期行为作为优化目标的方法，无疑是误导了推荐系统，对用户的长期留存是有害的。&lt;/p>
&lt;p>如果此时APP弹出来一个调查问卷，问你看完这个视频之后，你以后还会回来看类似的视频吗？你如果点击了是或者否，则系统就能显式获取到你的长期留存label，也就是你对此类视频的真实兴趣情况，这种真实反馈比click或者完播更加可靠，而且是和长期价值高度相关的（复访）。有了这种标注数据，则可以训练一个长期留存的模型，预估用户u对商品i的长期留存概率。用这个打分来修正传统的以即时行为为优化目标的推荐系统的打分。让推荐系统在推荐视频的时候能更多地关注用户的长期留存指标。&lt;/p>
&lt;h1 id="调查问卷设计方案">调查问卷设计方案&lt;/h1>
&lt;p>作者对比了3种不同的问卷方案：&lt;/p>
&lt;ul>
&lt;li>Retentive Relevance：问以后是否会再回来看类似视频（看未来，长期价值）&lt;/li>
&lt;li>Interest Matching：问当前视频是否符合用户兴趣（问当下，即时兴趣）&lt;/li>
&lt;li>Worth Your Time：问当前视频是否值得看（问当下，即时价值）&lt;/li>
&lt;/ul>
&lt;p>注意：Interest Matching和Worth Your Time并不等价，感兴趣的视频并不一定值得花这么多时间去看（例如没有营养的搞笑视频），有价值的视频并不一定感兴趣（例如枯燥无味的高数视频）。并且这两者都是对当前观看视频的即时反馈，而Retentive Relevance则更加宽泛一些，它不问用户对当前视频是否感兴趣或者是否有价值，而是问用户以后还会不会回来看类似的视频，非常巧妙，如果用户觉得感兴趣或者有价值，以后都有可能会回来看类似的视频，所以Retentive Relevance能一定程度上覆盖Interest Matching和Worth Your Time，并且是对未来的长期价值的直接提问。&lt;/p>
&lt;p>&lt;img loading="lazy" src="https://bitjoy.net/posts/2026-04-04-meta-retentive-relevance-paper-reading/meta-rr-table1.png">&lt;/p>
&lt;p>论文中还展示了调查问卷的app界面：&lt;/p>
&lt;p>&lt;img loading="lazy" src="https://bitjoy.net/posts/2026-04-04-meta-retentive-relevance-paper-reading/meta-rr-figure1.png">&lt;/p>
&lt;h1 id="调查问卷结果的分析">调查问卷结果的分析&lt;/h1>
&lt;h2 id="一致性分析">一致性分析&lt;/h2>
&lt;p>三种问卷调查结果的一致性比较高，说明三种调查问卷有比较大的overlap，结果比较可靠。&lt;/p>
&lt;blockquote>
&lt;p>Retentive Relevance showed substantial correlations with Worth Your Time (r = 0.63, p &amp;lt; 0.001, 95%CI [0.71, 0.75]) and Interest Matching (r = 0.58, p &amp;lt; 0.001, 95% CI [0.66, 0.70]).&lt;/p></description></item></channel></rss>