我们使用了ccl开源的相关外部数据集,数据已经开源且共享,虽然该数据集含有标签,然而我们认为该数据集存在以下两个问题无法直接加入训练。 1.该数据集文本长度相比此次比赛的数据较短,每条样本信息量很小。存在数据差异性。 2.如图2、3所示,数据集中存在较为严重的漏标情况,主要分为两类问题:SEO(一实体与多个实体有...