具体来说,CLIPER首先对文本描述进行多视图分割,然后将其作为提示与图像一起输入CLIP模型,获取预训练的视觉和语言表示以及多视图相似性度量嵌入。通过融合层整合不同表示,CLIPER能够形成适用于各种推荐模型的综合性框架。 在三个公共数据集上的实验结果表明,CLIPER模型在多个评价指标上均优于现有的最先进多模态推荐模...