https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/renMinRiBao MSRA微软亚洲研究院数据集。 5 万多条中文命名实体识别标注数据(包括地点、机构、人物) https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/MSRA SIGHAN Bakeoff 2005:一共有四个数据集,包含繁体中文和简体中文,下面是简体...
NLP Chinese Corpus项目:大规模中文自然语言处理语料 众所周知,中文NLP领域缺乏高质量的中文语料。作者徐亮(实在智能算法专家) 创建了一个中文自然语言处理语料库项目:nlp_chinese_corpus ,初步贡献了几个已经预处理好的中文语料,包括维基、新闻和百科语料。希望大家一起为该项目贡献语料,感兴趣的同学可以直接关注该项目...
项目地址:https://github.com/brightmart/nlp_chinese_corpus 维基百科json版 (wiki2019zh) 104 万个词条(1,043,224 条;原始文件大小 1.6G,压缩文件 519M;数据更新时间:2019.2.7) 下载链接:https://storage.googleapis.com/nlp_chinese_corpus/wiki_zh_2019.zip 可能的用途:可以做为通用中文语料,做预训练的语...
搜集、整理、发布 中文 自然语言处理 语料/数据集,与 有志之士 共同 促进 中文 自然语言处理 的 发展。 - FrankHoang/ChineseNlpCorpus
ChineseNlpCorpus 中文自然语言处理数据集,平时做做实验的材料。欢迎补充提交合并。 任务型对话数据 CATSLU 之前的一些对话数据集集中于语义理解,而工业界真实情况ASR也会有错误,往往被忽略。CATSLU而是一个中文语音+NLU文本理解的对话数据集,可以从语音信号到理解端到端进行实验,例如直接从音素建模语言理解(而非word ...
贡献中文语料,请发送邮件至nlp_chinese_corpus@163.com 为了共同建立一个大规模开放共享的中文语料库,以促进中文自然语言处理领域的发展,凡提供语料并被采纳到该项目中, 除了会列出贡献者名单(可选)外,我们会根据语料的质量和量级,选出前20个同学,结合您的意愿,寄出键盘、鼠标、 显示屏、无线耳机、智能音箱或其他...
https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/MSRA SIGHAN Bakeoff 2005:一共有四个数据集,包含繁体中文和简体中文,下面是简体中文分词数据。 MSR:http://sighan.cs.uchicago.edu/bakeoff2005/ PKU :http://sighan.cs.uchicago.edu/bakeoff2005/ ...
https://github.com/InsaneLife/ChineseNLPCorpus 以下来自该项目介绍页 中文自然语言处理数据集,平时做做实验的材料。欢迎补充提交合并。 文本分类 新闻分类 情感/观点/评论 倾向性分析 实体识别&词性标注 微博实体识别。 boson数据。 1998年人民日报数据集。
https://storage.googleapis.com/nlp_chinese_corpus/translation2019zh.zip 数据描述 中英文平行语料 520 万对。每一个对,包含一个英文和对应的中文。中文或英文,多数情况是一句带标点符号的完整的话。 对于一个平行的中英文对,中文平均有 36 个字,英文平均有 19 个单词(单词如“she”) ...
nlp_chinese_corpus:大规模中文自然语言处理语料 点赞(0) 踩踩(0) 反馈 所需:7 积分 电信网络下载 WxMicro 2024-12-17 05:19:19 积分:1 vue-pc-chat 2024-12-17 05:18:20 积分:1 2024最新VS2022编译的json-c库 2024-12-17 05:15:35 积分:1 ...