可以向粗排模型中引入交叉特征,并新增交叉塔(Cross Tower)。
小红书使用的粗排模型基于阿里提出的三塔模型COLD,参考文献为:[2007.16122] COLD: Towards the Next Generation of Pre-Ranking System 模型结构 三塔模型即将模型分为3个塔:用户塔、物品塔、交叉塔,各自输出一个向量后做concat&cross操作,然后预测各种目标 线上推理时,这三个塔的时间代价相差比较大 用户塔:只用1次...
③ 当前应用最广泛的第三代粗排模型,是基于向量内积的深度模型。一般为双塔结构,两侧分别输入用户特征和广告特征,经过深度网络计算后,分别产出用户向量和广告向量,再通过内积等运算计算得到排序分数,③ 称为“粗排的深度时代-向量内积模型(2016)”。 在这里插入图片描述 向量内积模型相比之前的粗排模型,表达能力有了很...
基于规则的粗排策略虽然简单,但是不够智能化。目前行业先进的解决方案是搭建专门的粗排模型,针对返回的物料进行初步的CTR预估,公式为:CTR粗排 = 曝光点击数/召回物料数。 3. 粗排策略效果评估 粗排策略效果评估有线上和离线两种方式。在进行线上评估时,可直接实施AB Test小流量实验,比较新粗排策略与旧粗排策略,关注...
为了结合召回和精排的优点,我们引入了粗排模型。这个模型建立了一个三塔结构:用户塔、物品塔和交叉塔。用户塔每次只计算单个用户,所以开销不大。物品塔则可以利用缓存机制,把常用物品的向量特征保存下来,这样就能节省不少开销。至于交叉塔,它包含了实时动态信息,比如某个用户在过去30天内交互了多少个物品。这些信息...
粗排模型总结 双塔模型介绍 由于粗排的候选数目比精排多很多,粗排无法做的和精排一样复杂。现在业内比较通用的方案是采用双塔模型,左边塔建模user embedding,右边塔建模item embedding,由于用户的行为经常发生变化,user tower需要经常更新,但是item状态很少发生变化,可以离线算好所有的item embedding。计算user embedding和...
其中,粗排模型的主要作用是统一计算和过滤召回结果,在尽量保证推荐准确性的前提下减轻精排模型的计算压力。 在粗排模型的选型上,爱奇艺短视频推荐团队经历了从GBDT到双塔DNN的转变。GBDT模型虽然结构简单,但特征处理和挖掘方面需要投入大量的人力,且预估结果与精排模型存在较大差异。为了提升链路目标一致性,团队决定采用...
2 预估分蒸馏 2.1 基本方法 基本思路:除了真实label外,将Teacher模型softmax层输出的类别概率(或logits)也作为学习目标,使粗排模型与精排模型的预估分尽量对齐。主要说明两个问题:(1)预估分蒸馏为什么有效 softmax层的输出除了正例之外,负标签也带有Teacher模型归纳推理的大量信息,例如某些负标签...
2.1.2 粗排的技术发展历史(向量內积,Wide&Deep等模型) 粗排在工业界的发展历程可以分成下面几个阶段: ① 最早期的第一代粗排是静态质量分,一般是统计广告的历史平均CTR,只使用了广告侧的信息,表达能力有限,但是更新上可以做到很快。 ② 第二代粗排是以LR为代表的早期机器学习模型,模型结构比较简单,有一定的个性化...
2.1.2 粗排的技术发展历史(向量內积,Wide&Deep等模型) 粗排在工业界的发展历程可以分成下面几个阶段: ① 最早期的第一代粗排是静态质量分,一般是统计广告的历史平均CTR,只使用了广告侧的信息,表达能力有限,但是更新上可以做到很快。 ② 第二代粗排是以LR为代表的早期机器学习模型,模型结构比较简单,有一定的个性化...