简介:这是一个中文自然语言处理(NLP)包,可以从文本中提取信息。 地址:https://opencsg.com/datasets/MagicAI/cocoNLP 2.3 中文缩写库数据集 Chinese-abbreviation-dataset: 简介:这是论文《A Chinese Dataset with Negative Full Forms for General Abbreviation Prediction》发布的数据集。 地址:https://opencsg.com/...
这可能是最全的中文 NLP 数据集合 本项目中的 NLP 数据集囊括了 NER、QA、情感分析、文本分类、文本分配、文本摘要、机器翻译、知识图谱、语料库以及阅读理解等 10 大类共 142 个数据集。 具体而言,对于每一个数据集,项目作者都提供了数据集名称、更新时间、数据集提供者、说明、关键字、类别以及论文地址等几方...
中文NLP问答数据集是一个包含问答对(即问题及其对应答案)的数据库。这些数据集通常用来训练和评估问答系统的性能。数据集可以包括多种类型的问题,如事实性问题、推理性问题和开放性问题。在构建这些数据集时,研究人员通常会聚焦于两个主要方面:数据质量和多样性。 数据集的结构 大多数中文NLP问答数据集通常有以下几个...
「CMRC 2019数据集是一个用于中文机器阅读理解的完形填空任务(cloze-style)数据集」,其主要任务旨在将正确的候选句子填入有空白的文章中,来评估SC-MRC任务的难度。已经被国际计算语言学会议COLING2020所收录。该数据集包含超过10万篇文章(这些文章均来自中国的叙事故事)中的10万多个填空问题,其中对于每个正确答案都制作...
数据集介绍:CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集...
51CTO博客已为您找到关于nlp中文通用开源数据集的相关内容,包含IT学习相关文档代码介绍、相关教程视频课程,以及nlp中文通用开源数据集问答内容。更多nlp中文通用开源数据集相关解答可以来51CTO博客参与分享和学习,帮助广大IT技术人实现成长和进步。
2.1. 资金和人力 建立大型高质量的中文NLP数据集需要大量的资金和人力资源投入。然而,相比英语,中文...
隐辉破芒/nlp_chinese_corpus 加入Gitee 与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :) 免费加入 已有帐号?立即登录 master 克隆/下载 git config --global user.name userName git config --global user.email userEmail 分支1 ...
除了上述两个语料库,还有许多其他中文NLP数据集可供研究者和开发者使用,如《中国新闻语料库》(China News Corpus)、《汉语问答数据集》(Chinese Question Answering Dataset)等。这些数据集覆盖了新闻、问答、社交媒体等多种应用场景,为中文NLP领域的研究提供了宝贵资源。总之,中文NLP数据集在学术研究...
总体来讲,腾讯AI实验室此次公开的中文词向量数据集包含800多万中文词汇,其中每个词对应一个200维的向量。 具体方面,腾讯自称,该数据集着重在3方面进行了提升: 覆盖率(Coverage): 该词向量数据集包含很多现有公开的词向量数据集所欠缺的短语,比如“不念僧面念佛面”、“冰火两重天”、“煮酒论英雄”、“皇帝菜”...