交互模型的层数从 12 层压缩到 6 层,排序相关性特征 P95 减少为原本的 1/2,整体搜索入口下降 40ms,模型部署所需的GPU机器数也减少了一半,降低了资源消耗。 表示模型语义索引存储规模 title 减为 1/4,content 维度从 768 维压缩至 64 维,虽然维度减少了 12 倍,但增加了倒排索引 doc 的数量,所以 content ...
•高置信样本挖掘,缓解搜索点击日志“点击但不相关”的问题。 •定制化的负样本构造,避免模型收敛过快,只能判断简单语义相关性,而对上文提到的闲鱼场景"勉强相关"的难 case 无法区分。 针对以上问题,参考集团相关经验并结合对闲鱼搜索数据的观察分析,做了如下采样方案: 正样本: •充足曝光下高点击 ctr 样本(ct...
•高置信样本挖掘,缓解搜索点击日志“点击但不相关”的问题。 •定制化的负样本构造,避免模型收敛过快,只能判断简单语义相关性,而对上文提到的闲鱼场景"勉强相关"的难 case 无法区分。 针对以上问题,参考集团相关经验并结合对闲鱼搜索数据的观察分析,做了如下采样方案: 正...
1.全文本重建(FTR): 将污染的文本序列送入模型,得出在每个词元预测概率与真实词元的交叉熵后相加得出总损失。 2.污染文本重建(CTR): 将污染的文本序列送入模型,得出在每个被污染的词元预测概率与真实词元的交叉熵后相加得出总损失。 2.4. 常见的LLM架构 通过注意力掩码和编码器/解码器的选择可以组合成以下的...
•充足曝光下高点击 ctr 样本(ctr 大于同 query 下商品点击率平均值) 负样本: •同父类目的邻居叶子类目负采样。 •高曝光低点击类目样本:同一个 query 搜索下,根据点击过商品的类目分布,取相对超低频类目样本 作为负样本(如类目分布占比 < 0.05 的商品视为负样本)。
•充足曝光下高点击 ctr 样本(ctr 大于同 query 下商品点击率平均值) 负样本: •同父类目的邻居叶子类目负采样。 •高曝光低点击类目样本:同一个 query 搜索下,根据点击过商品的类目分布,取相对超低频类目样本 作为负样本(如类目分布占比 < 0.05 的商品视为负样本)。
•充足曝光下高点击 ctr 样本(ctr 大于同 query 下商品点击率平均值) 负样本: •同父类目的邻居叶子类目负采样。•高曝光低点击类目样本:同一个 query 搜索下,根据点击过商品的类目分布,取相对超低频类目样本 作为负样本(如类目分布占比 < 0.05 的商品视为负样本)。
表示模型语义索引的构建时间减少为 1/4,底层知乎自研的 TableStore/TIDB 存储减为原来的 1/6,LTR 训练数据和训练时间都有很大的提升,粗排早期用的是 BM25 等基础特征,后来引入了 32 维的 BERT 向量,提升了精排精度。 四、美团—BERT搜索核心排序 用于核心搜索的“核心排序”中,蒸馏成2层交互BERT,预测的query-...
通过人工对样本进行评测发现,优化后的样本更加符合排序业务特点以及“人”对相关性的认知,同时线上指标的提升也验证了我们优化的有效性。知识融合的BERT模型引入大量结构化文本信息,弥补了POI名本身文本信息少的问题,排序模型CTR和NDCG都有明显的提升。对数据样本的优化有了一定的效果。
知识融合的BERT模型引入大量结构化文本信息,弥补了POI名本身文本信息少的问题,排序模型CTR和NDCG都有明显的提升。对数据样本的优化有了一定的效果。为了更加匹配业务场景,我们从模型的角度进行优化,模型损失函数改用排序任务常用的Pairwise Loss,其考虑了文档之间的关系更加贴合排序任务场景,线上排序模型NDCG取得了一定的...