调查问卷 | bitJoy

论文阅读：Retentive Relevance: Capturing Long-Term User Value in Recommendation Systems

基本信息论文标题：Retentive Relevance: Capturing Long-Term User Value in Recommendation Systems 作者单位：Meta 论文链接：https://arxiv.org/abs/2510.07621 来源：arxiv Motivation：论文要解决的问题是什么现有推荐系统通常以用户的短期行为作为优化目标，例如用户的click、like等。但是这些短期信号通常存在噪声，且比较稀疏，而且难以捕捉用户的长期需求和留存情况。本文提出了一种基于调查问卷的留存相关性模型（Retentive Relevance），通过设计针对后续留存的调查问卷，直接获得用户的长期留存信号。并据此训练了一个长期留存模型，用此模型的打分来校准排序模型的打分，由此让推荐系统更加关注用户的长期留存价值。举个我自己脑补的例子：比如你刷抖音的时候点了一个段子手的搞笑视频，你看完了但是觉得并不搞笑，由于没有显式负反馈，推荐系统只能获取到你点击了这个视频，并且也看完了的正向信号，所以推荐系统在后续训练的时候会把这个搞笑视频当做正样本，再给你推荐类似的搞笑视频。这种以短期行为作为优化目标的方法，无疑是误导了推荐系统，对用户的长期留存是有害的。如果此时APP弹出来一个调查问卷，问你看完这个视频之后，你以后还会回来看类似的视频吗？你如果点击了是或者否，则系统就能显式获取到你的长期留存label，也就是你对此类视频的真实兴趣情况，这种真实反馈比click或者完播更加可靠，而且是和长期价值高度相关的（复访）。有了这种标注数据，则可以训练一个长期留存的模型，预估用户u对商品i的长期留存概率。用这个打分来修正传统的以即时行为为优化目标的推荐系统的打分。让推荐系统在推荐视频的时候能更多地关注用户的长期留存指标。调查问卷设计方案作者对比了3种不同的问卷方案： Retentive Relevance：问以后是否会再回来看类似视频（看未来，长期价值） Interest Matching：问当前视频是否符合用户兴趣（问当下，即时兴趣） Worth Your Time：问当前视频是否值得看（问当下，即时价值）注意：Interest Matching和Worth Your Time并不等价，感兴趣的视频并不一定值得花这么多时间去看（例如没有营养的搞笑视频），有价值的视频并不一定感兴趣（例如枯燥无味的高数视频）。并且这两者都是对当前观看视频的即时反馈，而Retentive Relevance则更加宽泛一些，它不问用户对当前视频是否感兴趣或者是否有价值，而是问用户以后还会不会回来看类似的视频，非常巧妙，如果用户觉得感兴趣或者有价值，以后都有可能会回来看类似的视频，所以Retentive Relevance能一定程度上覆盖Interest Matching和Worth Your Time，并且是对未来的长期价值的直接提问。论文中还展示了调查问卷的app界面：调查问卷结果的分析一致性分析三种问卷调查结果的一致性比较高，说明三种调查问卷有比较大的overlap，结果比较可靠。 Retentive Relevance showed substantial correlations with Worth Your Time (r = 0.63, p < 0.001, 95%CI [0.71, 0.75]) and Interest Matching (r = 0.58, p < 0.001, 95% CI [0.66, 0.70]). ...

调查问卷的有效性（2）相对误差

$$\begin{equation}Pr(|\hat{p}-p|\geq 5\%)\leq 5\%\end{equation}$$上一回我们讲到当$p$本身很小的时候，容易被5%（绝对误差）给淹没掉，导致结果的不可信。我们可以引入相对误差，把(1)式转换为如下的不等式 $$\begin{equation}Pr(|\hat{p}-p|\geq\delta p)\leq\epsilon\end{equation}$$同理，我们可以用 $$\begin{equation}\hat{p}=\frac{x_1+x_2+…+x_n}{n}\end{equation}$$代替$\hat{p}$（建议先看上一篇博客），转换为 $$\begin{equation}Pr(|X-np|\geq\delta np)\end{equation}$$类似的，$X=x_1+x_2+…+x_n$，$E(X)=\mu=np$，所以(4)式等价为 $$\begin{equation}Pr(|X-\mu|\geq\delta\mu)\end{equation}$$这个时候，因为不等号右边和均值$\mu$有关，不能再用切比雪夫不等式了，我们需要另外一个武器：Chernoff bound。它有两种形式： $$\begin{equation}Pr(X\geq (1+\delta)\mu)\leq[\frac{e^\delta}{(1+\delta)^{1+\delta}}]^\mu\leq e^{-\frac{\mu}{3}\delta^2}\quad\forall\delta>0\end{equation}$$$$\begin{equation}Pr(X\leq (1-\delta)\mu)\leq[\frac{e^{-\delta}}{(1-\delta)^{1-\delta}}]^\mu\leq e^{-\frac{\mu}{2}\delta^2}\quad\forall 0<\delta<1\end{equation}$$Chernoff bound的证明需要用到马尔可夫不等式，有一点技巧。以上两种形式可以统一成 $$\begin{equation}Pr(|X-\mu|\geq\delta\mu)\leq 2e^{-\frac{\mu}{3}\delta^2}\end{equation}$$也是一个很漂亮的不等式。利用Chernoff bound求解(5)式： $$\begin{equation}Pr(|X-\mu|\geq\delta\mu)\leq 2e^{-\frac{\mu}{3}\delta^2}\\=2e^{-\frac{np}{3}\delta^2}\leq\epsilon\end{equation}$$解得 $$\begin{equation}n\geq\left\lceil\frac{3ln\frac{2}{\epsilon}}{p\delta^2}\right\rceil\end{equation}$$这个结果看起来就很复杂了。也就是说，如果要设计调查问卷使满足(2)式的精度，抽样的样本数必须满足(10)式。从(10)式可知，当要求的精度越高（即$\delta$和$\epsilon$越小），所需的样本数越大。并且结果还和真实值$p$有关。

调查问卷的有效性（1）绝对误差

每年春晚过后，央视又要吹嘘说今年春晚收视率创新高了，但是我们总感觉央视在骗我们，因为我是越长大越不看春晚了[笑cry]，所以收视率到底是怎么统计出来的，央视的说法是否靠谱呢？最近的美国大选真是热闹，很多机构都会发放一些调查问卷，然后统计出希拉里或者唐纳德的民众支持率是多少，但是我并没有收到调查问卷，凭什么就得出了民众支持率了，意思是把我排除在民众之外咯？所以引出这样一个问题，调查问卷是否可信，即调查问卷的有效性。其实，央视统计收视率并不要问全中国14亿人口有多少人看了春晚，他只需要从14亿人口里面随机抽$n$个人，问一下这$n$个人里有多少人看了春晚，然后把看的人数除以总数就大概估计出全国的收视率了。同理调查民众支持率也是一样，只需要随机调查$n$个人的意向，把支持希拉里的人数除以总数就大概得到了希拉里的支持率。但是你要问了，通过抽样调查出来的收视率和支持率靠谱吗，需要随机抽样多少人才能得到一个比较好的全局近似解呢？今天我们就来解决这个问题。假设我们随机抽样了$n$个人，分别是$x_1,x_2,…,x_n$。如果第$i$个人看了春晚，则$x_i=1$，否则$x_i=0$。那么通过这$n$个人的收视情况，我们可以估计出一个收视率 $$\begin{equation}\hat{p}=\frac{x_1+x_2+…+x_n}{n}\end{equation}$$假设全国的真实收视率是$p$，那么平均到每一个人，他看了春晚的概率就是$p$，也即$Pr(x_i=1)=p$，所以有 $$\begin{equation}E(x_i)=p\quad E(x_i^2)=p\quad Var(x_i)=p(1-p)\end{equation}$$我们的目的就是希望通过$n$个人估计出来的$\hat{p}$和$p$越接近越好。换句话说，我们希望$\hat{p}$和$p$相差大于5%的概率要小于5%。再换句话说就是有至少95%的概率，$\hat{p}$和$p$相差在5%以内，即$\hat{p}$和$p$很接近。注意这里的两个5%都是可以换成任意你想要的精度。用数学语言表示就是，$n$至少为多少时，以下不等式可以被满足。 $$\begin{equation}Pr(|\hat{p}-p|\geq 5\%)\leq 5\%\end{equation}$$把(1)式代入(3)式，用$\frac{1}{20}$代替5%，得到等价形式： $$\begin{equation}Pr(|(\frac{x_1+x_2+…+x_n}{n})-p|\geq\frac{1}{20})\\ \Longleftrightarrow~Pr(|X-np|\geq\frac{n}{20})\end{equation}$$其中$X=x_1+x_2+…+x_n$。根据期望的线性可加性，有 $$\begin{equation}E(X)=E(x_1+x_2+…+x_n)=E(x_1)+E(x_2)+…+E(x_n)=np\end{equation}$$所以(4)又等价于 $$\begin{equation}Pr(|X-E(X)|\geq\frac{n}{20})\end{equation}$$我们需要利用著名的切比雪夫不等式来求解上式，切比雪夫不等式如下： $$\begin{equation}Pr(|X-E(X)|\geq~c)\leq\frac{Var(X)}{c^2}\end{equation}$$切比雪夫不等式可以直接由马尔可夫不等式得到，马尔可夫不等式的证明也不难，略过。利用切比雪夫不等式求解(6)式 $$\begin{equation}Pr(|X-E(X)|\geq\frac{n}{20})\leq\frac{Var(X)}{n^2}*400\\ =\frac{n*Var(x_i)}{n^2}*400\\ =\frac{p(1-p)}{n}*400\\ \leq\frac{1/4}{n}*400=\frac{100}{n} \end{equation}$$第一个等号是因为$n$个变量是独立同分布的，所以方差也有类似于(5)式的线性性质。最后一个不等号是因为$p(1-p)$是一个开口向下的抛物线，在$p=1/2$时取到极值$1/4$。回到最初的不等式(3)，则(8)式要满足$\frac{100}{n}\leq 5\%$，解得$n\geq 2000$。注意到求出的$n$和总体人数是无关的，也就是说，虽然全中国有十几亿人口，但是央视只要随机抽样调查2000个人的收视情况，就能以比较高的概率准确估计出全国的收视率。这个结论还是很漂亮的，但是这种方法有两个限制条件：采样满足独立同分布，即这$n$个人是独立同分布的，不能针对某一特定人群调查 (3)式的5%是一个绝对误差，当$p$本身很小的时候，容易被5%淹没对于第1个问题，稍微好处理一点，抽样的时候尽量随机一点。对于第2个问题，比较好的解决办法是引入相对误差，即把(3)式转换为如下的不等式 $$\begin{equation}Pr(|\hat{p}-p|\geq\delta p)\leq\epsilon\end{equation}$$(9)式的求解就比较复杂了，得出的结论也没有上面那么简单，具体的求解方法请听下回分解。