根据这一数据格式,我们可以利用MIND数据集的behaviors.tsv表,其中的User ID字段就是用户id,User Click History字段就是用户点击过的历史新闻(如果你不熟悉或者遗忘了,可以从第5课回顾一下数据详细介绍)。 10.1.1 生成预训练的序列数据 为了从behaviors.tsv表中将数据转为上面的格式,我们可以用下面的generate_user_seq...
我们利用MIND数据集来构建我们的微调训练数据(本课程我们是基于MIND small的Validation数据来训练的,这个数据相对较小,非常微调很慢),如果你不熟悉MIND了,可以翻一下第5课的介绍。LORA微调需要的数据格式如下。 {"instruction": "Given the user's preference and unpreference, identify whether the user will like...