中文机器阅读理解数据集,本数据集通过机器翻译加人工校正的方式从原始 Squad 转换而来,其中包括 V1.1 和 V2.0。由于部分翻译无法找到原文中的答案(短答案翻译和文档翻译有出入),故数据量对比原始英文版 SQuAD 有所减少。 为什么这么做? 现有中文抽取式机器阅读理解数据集存在数据量较小或者领域专一的特点 ...
中文机器阅读理解数据集,本数据集通过机器翻译加人工校正的方式从原始Squad转换而来,其中包括V1.1 和V2.0。由于部分翻译无法找到原文中的答案(短答案翻译和文档翻译有出入),故数据量对比原始英文版SQuAD 有所减少。 NEWS 2020.01.13 将V 1.1 和V2.0 两个中文版本进行合并,详情请参考正式版的 squad-zen V 1.0。能...
ChineseSquad (中文机器阅读理解数据集) is a dataset specifically designed for Chinese machine reading comprehension. It is created by translating and manually correcting the original SQuAD (Stanford Question Answering Dataset) into Chinese. The dataset includes both V1.1 and V2.0 versions of SQuAD. ...
squad_2.0 ReadMe Dec 12, 2019 README.md Update README.md Jan 15, 2020 View all files 中文机器阅读理解数据集,本数据集通过机器翻译加人工校正的方式从原始Squad转换而来,其中包括V1.1 和V2.0。由于部分翻译无法找到原文中的答案(短答案翻译和文档翻译有出入),故数据量对比原始英文版SQuAD 有所减少。
Open Resources 公共资源 公共数据集 公共教程 公共模型 OpenBayes 服务状态帮助与支持关于 搜索K 登录/注册 公共模型/ ChineseSquad 中文机器阅读理解数据集/ 版本 V1 当前版本 概览版本1 v1最新版本当前版本 大约1 年前 处理完毕 214.39 MB 暂无版本描述...
由于规模大且问题类型复杂,基于DuReader数据集的分析工作相比以往数据集都要难得多。百度通过计算人工答案和文档的最小编辑距离来判断回答问题的困难度。编辑距离越大,对文档的编辑修改就更多,回答问题的复杂度也就越高。对于答案直接来源于原文的数据集(如SQuAD),它们的编辑距离应该是0。图6展示了MS-MARCO和DuReader...
中文基线系统效果 简体中文阅读理解:CMRC 2018 繁体中文阅读理解:DRCD 司法阅读理解:CJRC 自然语言推断:XNLI 情感分析:ChnSentiCorp 句对分类:LCQMC, BQ Corpus LCQMC BQ Corpus 篇章级文本分类:THUCNews 小参数量模型 使用建议 英文模型下载 FAQ 引用 致谢 ...
CMRC 2018:这是一个类似于SQuAD的跨度提取机器阅读理解数据集,需要为给定的问题提取一个段落跨度。 DRCD:这也是一个跨度提取MRC数据集,但是用的是繁体中文。 CJRC:类似于CoQA,其中包含是/否问题、无答案问题和跨度提取问题。数据是从中国法律判决文档中收集的。注意,我们只使用small-train-data.json进行训练。 结果...
测试任务数据 模型对比 中文基线系统效果 简体中文阅读理解:CMRC 2018 繁体中文阅读理解:DRCD 司法阅读理解:CJRC 自然语言推断:XNLI 情感分析:ChnSentiCorp 句对分类:LCQMC, BQ Corpus LCQMC BQ Corpus 篇章级文本分类:THUCNews 小参数量模型 使用建议 英文模型下载 ...
CMRC 2018:这是一个类似于SQuAD的跨度提取机器阅读理解数据集,需要为给定的问题提取一个段落跨度。DRCD...