数据集链接: msnews.github.io/ MIND: A Large-scale Dataset for News Recommendation是 微软&&清华大学研究人员发表在 ACL 2020 的一项工作,作者开源了一个大规模的英文新闻推荐数据集 MIND。 MIND 来自微软新闻业务的真实点击数据,包含了 1 百万用户和 16 万篇新闻(类别、标题、摘要、全文和抽取的实体)。 新...
MIND数据是来自于工业界真实的点击数据但是和传统的工业界实际的推荐系统使用的数据还是有较大的差异性,这种差异主要来自定位的不同,MIND更加强调推荐算法的泛化性,而实际工业界强调时效性实用性,因此工业界推荐系统最重要的特征往往是ID特征特别是docid特征,工业界的模型特别是ID对应的embedding基本也是实时快速更新的。
表1:已有的若干公开新闻推荐数据集 MIND 数据集 高质量的基准数据集可以显著促进特定领域的研究,例如 ImageNet 和 SQuAD 数据集极大促进了图像分类和机器阅读理解领域的研究。为了促进新闻推荐领域的研究,我们构建了一个大规模的新闻推荐数据集 Microsoft News Dataset,简称 MIND。MIND 数据集是从六周内 Microsoft News...
新闻推荐是个性化新闻服务的重要技术。与已被全面研究的产品和电影推荐相比,新闻推荐的研究要有限得多,这主要是由于缺乏高质量的基准数据集。 MIND Microsoft News Recommendation Dataset_datasets..txt MIND Microsoft News Recommendation Dataset_datasets..zip