论文阅读:QARM: Quantitative Alignment Multi-Modal Recommendation at Kuaishou

基本信息 论文标题:QARM: Quantitative Alignment Multi-Modal Recommendation at Kuaishou 作者单位:快手 论文链接:https://arxiv.org/pdf/2411.11739 来源:CIKM 2025 Motivation:论文要解决的问题是什么 多模态emb在搜推场景应用时通常采用如下图的两阶段方式,先预训练多模态emb,然后作为一个冻结特征放到搜推模型中。这种方式存在2个问题: 表征不对齐:多模态emb预训练的任务通常是图片分类或者文本的MLM,和下游搜推任务不对齐 表征不更新:多模态emb在搜推任务中作为冻结特征,没有更新 本文的方法就是想要解决上述2个问题。 对齐搜推任务的多模态emb预训练 为了解决多模态emb表征不对齐的问题,本文提出的多模态emb预训练任务直接对齐搜推场景,使用U2I和I2I召回模型,挖掘出相似item pair,然后通过对比学习微调多模态大模型。 具体来说,通过U2I和I2I模型,能够拿到item emb;然后用每一个target item emb去行为流中检索出最相似的商品,作为trigger item emb。<trigger, target>构成一对正样本,然后进行对比学习训练。 通过召回模型构造的训练样本,和搜推场景的协同信号对齐了,解决了开头提到的第一个问题,即表征不对齐的问题。 Semantic id生产方法 Semantic id的生产方法如上图右半部分所示,有两种方式: VQ:直接圈定一定数量(如N)的item emb作为底池,编号1~N,然后任意来一个item emb,通过对底池emb进行KNN搜索,找出top-k相似商品,假设是(a,b,…,k),则VQ编码的semantic id就是(a,b,…,k)。文中取k=25,感觉挺大的。。。 RQ-Kmeans:对圈定的N个item emb不断进行Kmeans聚类、求残差、残差继续Kmeans聚类的过程。文中取迭代次数为L=6,但是没说每次聚到多少个类。 注意:文中的RQ-Kmeans方法和RQ-VAE还不一样,RQ-Kmeans没有训练过程,也没有重构loss,纯粹是每次进行聚类,然后选聚类中心作为码本的过程。文中也没有对比过为啥不用RQ-VAE。 产出两套semantic id之后,直接在下游排序任务中进行端到端更新,解决开头提到的表征不更新的问题。具体建模方法比较常规,不是本文的重点,略讲。 评论 可借鉴 多模态emb预训练任务是i2i的,直接和下游搜推任务对齐 semantic id有两种产出方式,VQ和RQ-Kmeans,尽可能多地保留原始多模态emb的信息 可改进 多模态emb预训练和下游任务对齐,在2025年不算新鲜事了,常规操作。而且文中i2i的构造过程依赖U2I和I2I召回模型,有外部依赖,不够漂亮 VQ的方法,k=25这也太长了吧,相当于一个小型行为流了,会导致下游任务的特征处理更复杂 为什么用RQ-Kmeans而不是RQ-VAE,没有任何说明与对比 从pretrain emb量化成semantic id的过程中,存在严重的信息丢失,这在Empowering Large Language Model for Sequential Recommendation via Multimodal Embeddings and Semantic IDs论文中有讨论

October 4, 2025 · 1 min

论文阅读:Empowering Large Language Model for Sequential Recommendation via Multimodal Embeddings and Semantic IDs

基本信息 论文标题:Empowering Large Language Model for Sequential Recommendation via Multimodal Embeddings and Semantic IDs 作者单位:香港城市大学&腾讯 论文链接:https://arxiv.org/pdf/2509.02017 来源:CIKM 2025 Motivation:论文要解决的问题是什么 LLM4SR的基本范式如下,即用LLM直接来做搜推的范式(这种方式在学术界常见,但在工业界不常见)。由于LLM的输入词表范围是有限的(通常比较小),因此其token emb dim通常比较大,比如2048或者4096;而搜推场景的item量级很大,而且在不断更新,因此工业界经典的id-based的搜推模型的item emb dim通常比较小,比如64或128。经典的id-based的搜推模型能比较好地学习到搜推场景的协同信号,为了让LLM模型也能感知这种信息,LLM4SR范式通常会先预训练一个id-based的经典搜推模型,然后将其中的item id emb通过下图的Linear Projection的映射层,映射到LLM token emb的空间,让LLM也能感知搜推的协同信号。 上述LLM4SR范式存在两个问题: 维度坍缩:id-based训出来的id emb dim比较小(如64),LLM token emb dim比较大(如4096),在由id emb通过Linear Projection映射到toen emb的过程中,虽然64映射到4096空间了,但扩维后的矩阵存在低秩问题,即还是只利用了4096中的64维的空间。 论文中,作者分两种情况进行了分析,如果Linear Projection只是一个线性层的话,通过公式推导能得出上述结论;如果Linear Projection包含非线性变换,作者通过实验分析也发现了维度坍缩的现象。 灾难遗忘:除了使用id-based模型产出的id emb,LLM4SR也常用多模态模型产出item emb表征,然后转换成semantic id输入到LLM4SR中。在这种情况下,产出的semantic id通过会遗忘多模态item emb的信息,导致下游LLM4SR的效果不佳。 论文中,作者用公式9来衡量semantic id保留pretrain多模态emb的信息量。具体来说,如果行为流中的商品序列是{A,B,C,D},target item是E。使用pretrain多模态emb能计算出E和A~D的相似度,例如相似度<E,A> > <E,B>。如果将pretrain多模态emb转换成semantic id,然后由semantic id恢复出新的A~E的emb之后,再计算E和A~D的相似度,如果仍然有<E,A> > <E,B>,则认为一致(concordant),否则不一致(disconcordant)。这个分析方法挺好的,通过这个指标能估算出转换成semantic id之后,仍然保留原有pretrain多模态emb对搜推场景的序关系的保留程度。 作者发现,转换成semantic id之后,信息只保留了37.14%;进一步,如果semantic id是在下游任务中端到端训练的,则信息只保留了5.5%,也就是说94.5%的pretrain emb的序的信息都丢掉了,也就是灾难遗忘。 Semantic id构建方法 3套emb来源,一套id-based经典搜推模型产出的包含协同信号的emb,另外两套是LLM2CLIP产出的多模态文本和图片emb。作者提到传统CLIP对长文本处理能力较弱,所以升级到LLM2CLIP,能更好地处理长文本。 Semantic id构建方法是经典的RQ-VAE的方法,但有如下两个改进点: 将emb的重构loss由MSE升级成MMD (maximum mean discrepancy),MSE是计算原始emb和重构emb的欧式距离的误差,而MMD是计算两个分布的diff,实验表明能MMD比MSE能保留更多的pretrain多模态emb信息(即上述公式9),保留44.36% 对量化后的emb做了对齐,因为LLM2CLIP本身进行了图文模态的对齐,所以文中只新增了id emb分别和文本、图片模态的对齐 此外,还有一点论文没提但可能和常规RQ-VAE不同之处,就是原始emb在进行RQ-VAE之前,有一个Encoder升维的操作,在重构loss前对应有一个Decoder降维的操作,而semantic id量化恢复emb是Decoder之前的那个。这一升一降,估计也有助于缓解维度坍缩。 ...

October 4, 2025 · 1 min

【论文速读】End-to-End Differentiable Learning of Protein Structure

首先放出本文的Hightlights: 蛋白质三级结构预测一般分为两种方法,一种是基于模板的预测方法(Template-Based Modeling, TBM),另一种是从头测序方法(Free Modeling, FM)。TBM方法目前已经能达到比较好的预测精度,但并不是所有蛋白都有同源模板,当模板蛋白和目标蛋白的相似性低于某个阈值时,TBM方法的性能就会比较差。而传统的FM方法,需要过多的人工特征,使得整个流程非常复杂。 作者在一次报告中,将传统的蛋白质结构预测算法(上图)比作10年前的图像识别算法(下图),虽然10年前的图像识别算法也能达到比较好的性能,但需要很多人工设计的特征,比如SIFT特征等,不够简洁漂亮。随着深度学习的兴起,现在图像识别不再需要人工设计特征,只要搭建好神经网络,输入原始图片即可完成识别和分类,性能比之前的人工方法还要好。所以,作者也希望能提出一个简洁、纯深度学习的模型来预测蛋白质的三级结构。 本文的模型(Recurrent Geometric Networks, RGN)从宏观上来说就如博客开篇的图片所示,非常的简洁漂亮,输入是蛋白质的一维序列,经过神经网络,输出是每个氨基酸残基的三个扭转角,然后再通过三维重构,得到蛋白质的笛卡尔坐标。 更具体来说,RGN包括三个部分,分别是模型预测、三维重构和误差反向传播,下面分别介绍这三个部分。 模型预测是上图的左下角部分,即输入是蛋白质序列,输出是每个氨基酸残基的三个扭转角。因为每个氨基酸对应三个扭转角输出,每个氨基酸和其上下文的氨基酸有关联,所以使用双向LSTM最合适不过了。Bi-LSTM没什么好讲的,关键讲讲其模型的输入和输出。输入部分,作者把每个氨基酸编码成一个41维的向量,如上图所示,其中包括20维氨基酸的one-hot向量(因为只有20种氨基酸)、20维PSSM位置向量和1维具体的位置信息。其中的PSSM位置向量可以理解为这个位置上的不同氨基酸的概率分布,由于有20种氨基酸,所以PSSM向量维度也是20。网上没有找到氨基酸的PSSM向量示例,找到一个DNA的,如下图,每个位置上,字母越大表示出现该核苷酸的概率越大,换成氨基酸是类似的道理。所以整个网络的输入,除了PSSM矩阵,没有任何人工设计的特征,已经很优雅了。 https://davetang.org/muse/2013/10/01/position-weight-matrix/ Bi-LSTM的输出是三个扭转角,但并不是三个实数这么简单。作者首先把整个拉氏图平面聚类,比如聚类成m=60个点,然后就把输出离散化成60类的分类问题。分类输出采用Softmax归一化,这样就会得到60类的概率分布,如RGN网络图最右边的子图所示。60类的概率分布再通过加权平均的方式得到最终的三个扭转角的实数值。我很好奇为什么需要经过一个离散再加权平均的方法,Bi-LSTM直接回归输出三个扭转角的实数不是更省事吗? 预测得到三个扭转角之后,进入RGN的第二个阶段,就是三维重构,在RGN网络图的左上角。三维重构说起来也简单,就是根据每个氨基酸残基的三个扭转角,重构出蛋白质的三维结构。由于常规的蛋白质三维结构坐标系是笛卡尔坐标系(直角坐标系),所以需要把扭转角坐标转换为笛卡尔坐标,以便于求解误差。这个部分作者没有细说,因为是另一篇论文:Parallelized Natural Extension Reference Frame: Parallelized Conversion from Internal to Cartesian Coordinates。 最后就是怎样求解误差以及误差反向传播了。这个也比较有意思,想想看,对于一条长为L的蛋白质序列,给定预测的三维结构和真实的三维结构,怎样计算它们之间的误差。不能直接对应坐标相减,因为有可能两个坐标系的坐标原点不一样。作者的方法是这样的:对于预测结构,求每两个氨基酸的距离差,就是\(\tilde{d}_{j,k}\);对于真实结构,也做类似的操作。这样做的好处是抹掉了坐标原点的影响,用两点之间的相对距离来表示三维结构。然后,对真实的\(\tilde{d}_{j,k}^{(exp)}\)和预测的\(\tilde{d}_{j,k}^{(pred)}\)再求二范数\(||D||_2\),最后除以长度进行归一化,就得到了误差dRMSD。 上述dRMSD误差相比于之前领域内常用的TMscore,好处就是可微分,可自动求导,可梯度下降了;另外,如上所述,dRMSD不要求预测结构和真实结构进行对齐;但是有一点是dRMSD对size敏感,而且不能识别镜面对称这种错误结构,比如左手和右手的结构是镜面对称的,如果真实结构是左手,但模型预测成了右手,dRMSD是检测不到这种错误的。 模型介绍完毕,训练和测试数据集来自CASP竞赛。作者把每一届CASP比赛的数据集作为测试集,从CASP7~CASP12;每一届比赛之前公布的所有PDB数据集(seq, structure)作为对应测试集的训练集。其中,CASP11分出一部分作为验证集,用来优化网络超参数。 测试结果如Table 1所示,可以看到,在没有模板的FM类别中,本文的RGN预测误差是最小的;在有模板的TBM类别中,RGN的性能几乎垫底,当然这里参与评测的都是当届比赛中Top-5的模型,所以RGN和这5个模型比是垫底,但差距是很小的。 另外,作者提到,在TBM类别的数据集中,CASP的参赛模型比较依赖模板的质量。具体来说,对于真实的结构,如果模板结构和真实结构误差很小(y轴),则模型的预测结构和真实结构的误差也很小(x轴),这两个变量成一定的线性相关关系(第一行)。而对于本文的RGN,则没有这种相关关系,说明RGN一视同仁,不会受模板质量的影响,因为RGN是纯深度学习的模型,根本就没有用到模板。 在预测速度上,RGN虽然需要训练几周甚至上月的时间,但预测速度是毫秒级别的,是评测的几个模型中最快的。快速的RGN能使一些新的应用成为可能,比如药物发现、蛋白质设计等。 最后,总结一下本文的主要工作、创新点和局限性: 三个特点: torsional angles,局部信息 geometric units ,全局信息 dRMSD,局部+全局 创新点: 简洁,Model replaces structure prediction pipelines with one mathematical function 另辟蹊径,纯deeplearning,不依赖structural templates、co-evolutionary information、energy model等,本文预测融合了本文方法和领域知识的新模型有望解决蛋白质结构预测问题 局限性: 依赖PSSM矩阵 本文作者来自哈佛医学院系统药理学实验室,文章只有作者一个人,很了不起了。哈佛医学院的另一个教授评价作者:“AlQuraishi 研究的特点在于,一名埋头在哈佛医学院和波士顿生物医学社区丰富研究生态系统中的研究人员,居然能够在计算机科学最热门的领域里抗衡谷歌等巨头。——Peter Sorger”,太棒了,我也想做这样的研究。 ...

August 30, 2019 · 1 min