CAIL2018—SMALL数据集中罪名预测任务数据来自“中国裁判文书网”公开的刑事法律文书,包括19.6万份文书样例,其中每份数据由法律文书中的案情描述和事实部分组成,包括每个案件被告人被判的罪名,数据集共包含202项罪名,被告人罪名通常涉及一项至多项。以数据集中某一法律文书为例: "公诉机关指控,2009年12月18日22时许,...
CAIL2018—SMALL数据集中罪名预测任务数据来自“中国裁判文书网”公开的刑事法律文书,包括19.6万份文书样例,其中每份数据由法律文书中的案情描述和事实部分组成,包括每个案件被告人被判的罪名,数据集共包含202项罪名,被告人罪名通常涉及一项至多项。以数据集中某一法律文书为例: 代码语言:javascript 复制 "公诉机关指控,...
CAIL2018—SMALL数据集中罪名预测任务数据来自“中国裁判文书网”公开的刑事法律文书,包括19.6万份文书样例,其中每份数据由法律文书中的案情描述和事实部分组成,包括每个案件被告人被判的罪名,数据集共包含202项罪名,被告人罪名通常涉及一项至多项。以数据集中某一法律文书为例: "公诉机关指控,2009年12月18日22时许,...
本文将以CAIL2018-SMALL数据集的罪名预测任务为例,介绍如何利用PaddleNLP和ERNIR3.0进行文本分类。CAIL2018-SMALL数据集是一个包含法律判决文书的文本分类数据集,目标是对给定的法律判决文书进行罪名预测。该数据集具有多标签的特点,即一个样本可能对应多个罪名。 首先,我们需要对数据进行预处理。预处理是文本分类任务中...
本文将以PaddleNLP和ERNIR3.0为基础,结合CAIL2018-SMALL数据集,详细讲解如何进行罪名预测任务。 一、引言 文本分类任务简单来说,就是对给定的句子或文本段进行分类。在法律领域,罪名预测是一个典型的文本分类应用,它通过分析案件描述,预测被告人可能涉及的罪名。CAIL2018-SMALL数据集提供了丰富的法律文书样本,包含19.6...
CAIL2018—SMALL数据集中罪名预测任务数据来自“中国裁判文书网”公开的刑事法律文书,包括19.6万份文书样例,其中每份数据由法律文书中的案情描述和事实部分组成,包括每个案件被告人被判的罪名,数据集共包含202项罪名,被告人罪名通常涉及一项至多项。以数据集中某一法律文书为例:...
游客hfg22irzyoq4o2022-05-1411410CC-BY-SA-NC 4.0 描述 cail_small 数据列表 数据名称上传日期大小下载 test.csv2022-05-1442.81MB dev.csv2022-05-1442.37MB train.csv2022-05-14200.01MB 文档 目录
CAIL2018-Small包括19.6万份文书样例,直接在该网站发布,包括15万训练集,1.6万验证集和3万测试集。这部分数据可以自由下载,供参赛者前期训练和测试。比赛开始2-3周后(具体时间请关注比赛新闻),我们将通过网络下载向有资格的参赛队伍定向发布CAIL2018-Large数据集,包括150万文书样例。最后,剩余文书将作为第一阶段的...
基于ERNIR3.0文本分类:CAIL2018-SMALL罪名预测为例(多标签) 0.前言:文本分类任务介绍 文本分类任务是自然语言处理中最常见的任务,文本分类任务简单来说就是对给定的一个句子或一段文本使用文本分类器进行分类。文本分类任务广泛应用于长短文本分类、情感分析、新闻分类、事件类别分类、政务数据分类、...
CAIL2018—SMALL数据集中罪名预测任务数据来自“中国裁判文书网”公开的刑事法律文书,包括19.6万份文书样例,其中每份数据由法律文书中的案情描述和事实部分组成,包括每个案件被告人被判的罪名,数据集共包含202项罪名,被告人罪名通常涉及一项至多项。以数据集中某一法律文书为例: "公诉机关指控,2009年12月18日22时许,...