XNLI数据集 许多NLP 系统(例如情感分析、主题分类、提要排名)依赖于一种高资源语言的训练数据,但不能在测试时直接用于对其他语言进行预测,几乎所有涉及跨语言数据的工业应用都会出现这个问题。XNLI数据集是一个由5000个测试和2500个开发对组成的多语言语料库集合,这些文本都附有注释,并被翻译成14种语言:法语、西班牙语、德语、希腊语
这可能是最全的中文 NLP 数据集合 本项目中的 NLP 数据集囊括了 NER、QA、情感分析、文本分类、文本分配、文本摘要、机器翻译、知识图谱、语料库以及阅读理解等 10 大类共 142 个数据集。 具体而言,对于每一个数据集,项目作者都提供了数据集名称、更新时间、数据集提供者、说明、关键字、类别以及论文地址等几方...
https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/MSRA SIGHAN Bakeoff 2005:一共有四个数据集,包含繁体中文和简体中文,下面是简体中文分词数据。 MSR: http://sighan.cs.uchicago.edu/bakeoff2005/ PKU :http://sighan.cs.uchicago.edu/bakeoff2005/ 搜索匹配 OPPO手机搜索排序 OPPO手机搜索排序...
https://baidu-nlp.bj.bcebos.com/DuRecDial.zip 3、论文: https://arxiv.org/pdf/2005.03954.pdf 十二、清华LCCC 1、简介: 所提供的数据集LCCC(Large-scale Cleaned Chinese Conversation)主要包含两部分:LCCC-base和LCCC-large,属于开放域对话数据集。 2、下载: https://github.com/thu-coai/CDial-GPT 十三...
kaggle 中文nlp数据集 kaggle常见数据集,要找到一定特定的数据集可以解决各种机器学习问题,是一件很难的事情。越来越多企业或研究机构将自己的数据集公开,已经成为全球的趋势,这也将有助于大家进行更多研究。近期,亚马逊高级技术顾问WillBadr分享了8种适用于不同机器学
经过了一年的发展,千言所覆盖的任务和数据集数量显著增加,从最开始的 7 个任务,发展到最新的 12 个任务,对应的数据集数量,也从最开始的 22 个数据集,增加到了现在 36 个数据集。千言「百 +」计划:共同构建世界范围内中文 NLP 的影响力 为了更好地帮助数据集作者提升数据集影响力和推进相关技术发展,...
中文NLP数据集有多个可供选择和使用,以下是一些常见且具有代表性的数据集:1. 复旦大学中文情感挖掘语料库 简介:专门针对中文文本情感分析任务的数据集,包含了从CSDN网站抓取的大量用户评论,内容涵盖技术、编程、软件等IT相关领域。 数据规模:约20万条用户评论。 数据格式:中文文本形式,未经过预处理...
中文NLP 文本摘要数据集创建指南 一、项目流程概览 在开始实现中文 NLP 文本摘要数据集之前,我们需要理清项目的流程和步骤。以下是实现的步骤概述: 下面将详细讲解每一个步骤及对应的代码。 二、详细步骤 1. 数据收集 首先,我们需要收集中文文本数据。可以通过爬虫、开放数据集或其他途径获取。这里假设我们从一个文本...
本文将重点探讨中文文本生成数据集在NLP任务中的应用,并通过具体实例解析文本生成的过程、模型架构及评价指标,同时介绍千帆大模型开发与服务平台如何助力中文文本生成。 一、中文文本生成数据集的重要性 中文文本生成数据集是NLP任务中的基础资源,它对于训练和优化文本生成模型至关重要。与英文相比,中文的语法结构、词汇...
华为诺亚方舟实验室的研究者提出了一个大规模的中文的跨模态数据库 ——「悟空」,并在此基础上对不同的多模态预训练模型进行基准测试,有助于中文的视觉语言预训练算法开发和发展。 在大数据上预训练大规模模型,对下游任务进行微调,已经成为人工智能系统的新兴范式。BERT 和 GPT 等模型在 NLP 社区中越来越受欢迎,...