「CMRC 2019数据集是一个用于中文机器阅读理解的完形填空任务(cloze-style)数据集」,其主要任务旨在将正确的候选句子填入有空白的文章中,来评估SC-MRC任务的难度。已经被国际计算语言学会议COLING2020所收录。该数据集包含超过10万篇文章(这些文章均来自中国的叙事故事)中的10万多个填空问题,其中对于每个正确答案都制作...
简介:这是一个中文自然语言处理(NLP)包,可以从文本中提取信息。 地址:https://opencsg.com/datasets/MagicAI/cocoNLP 2.3 中文缩写库数据集 Chinese-abbreviation-dataset: 简介:这是论文《A Chinese Dataset with Negative Full Forms for General Abbreviation Prediction》发布的数据集。 地址:https://opencsg.com/...
这可能是最全的中文 NLP 数据集合 本项目中的 NLP 数据集囊括了 NER、QA、情感分析、文本分类、文本分配、文本摘要、机器翻译、知识图谱、语料库以及阅读理解等 10 大类共 142 个数据集。 具体而言,对于每一个数据集,项目作者都提供了数据集名称、更新时间、数据集提供者、说明、关键字、类别以及论文地址等几方...
中文NLP问答数据集是一个包含问答对(即问题及其对应答案)的数据库。这些数据集通常用来训练和评估问答系统的性能。数据集可以包括多种类型的问题,如事实性问题、推理性问题和开放性问题。在构建这些数据集时,研究人员通常会聚焦于两个主要方面:数据质量和多样性。 数据集的结构 大多数中文NLP问答数据集通常有以下几个...
2.1 多分类数据集 THUCNews新闻分类数据集:THUCTC: 一个高效的中文文本分类工具 百科问答分类数据集:GitHub - brightmart/nlp_chinese_corpus: 大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP 头条新闻标题数据集(tnews):https://github.com/aceimnorstuvwxz/toutiao-text-classfication-dataset ...
隐辉破芒/nlp_chinese_corpus 加入Gitee 与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :) 免费加入 已有帐号?立即登录 master 克隆/下载 git config --global user.name userName git config --global user.email userEmail 分支1 ...
51CTO博客已为您找到关于nlp中文通用开源数据集的相关内容,包含IT学习相关文档代码介绍、相关教程视频课程,以及nlp中文通用开源数据集问答内容。更多nlp中文通用开源数据集相关解答可以来51CTO博客参与分享和学习,帮助广大IT技术人实现成长和进步。
华为诺亚方舟实验室的研究者提出了一个大规模的中文的跨模态数据库 ——「悟空」,并在此基础上对不同的多模态预训练模型进行基准测试,有助于中文的视觉语言预训练算法开发和发展。 在大数据上预训练大规模模型,对下游任务进行微调,已经成为人工智能系统的新兴范式。BERT 和 GPT 等模型在 NLP 社区中越来越受欢迎,...
因此,中文 NLP 数据集的构建难度较高,目前确实存在数据量不足的问题。