清华TH语料库根据对语料加工深度的不同采用分级管理的原则,分成了生语料和熟语料子语料库,其中0级生语料分库涵盖了一般书、报纸、论文、杂志、工具书等五类子库语料素材。现已更名为THCHS-30语料库。 链接直达:http://www.openslr.org/18 相关推荐
该语料库是我国第一个大型的现代汉语标注语料库,以《人民日报》1998年的纯文本语料为基础,完成词语切分、词性标注、专有名词标注、语素子类标注、动词和形容词特殊用法标注、短语型标注等加工工作,现已扩充至3500万字的规模。后来北京大学计算语言学研究所在此基础上完成了另外100万字语料的词语切分、词性标注和汉语拼音...
语料生成工具:从具有音频/字幕的在线视频创建自动语音识别(ASR)语料库、构建医疗实体识别的模型(包含词典和语料标注)、单文档非监督的关键词抽取、Kashgari中使用gpt-2语言模型、开源的金融投资数据提取工具、文本自动摘要库TextTeaser: 仅支持英文、人民日报语料处理工具集、一些关于自然语言的基本模型、基于14W歌曲知识库...
清华大学TH大型通用汉语语料库系统的研制 作者: 罗振声 作者机构: 清华大学中国语言文学系 教授 出版物刊名: 清华大学学报:哲学社会科学版 页码: 94-98页 主题词: 汉语语料库;知识信息系统;生语料;熟语料 摘要: 本文介绍了我国第一个建成并通过鉴定的大型语料库,即清华大学大型通用汉语语料库系统建设的基本...
中日韩分词库mecab的Python接口库、中文文本摘要/关键词提取、汉字字符特征提取器 (featurizer),提取汉字的特征(发音特征、字形特征)用做深度学习的特征、中文生成任务基准测评 、中文缩写数据集、中文任务基准测评 - 代表性的数据集-基准(预训练)模型-语料库-baseline-工具包-排行榜、PySS3:面向可解释AI的SS3文本...
中日韩分词库mecab的Python接口库、中文文本摘要/关键词提取、汉字字符特征提取器 (featurizer),提取汉字的特征(发音特征、字形特征)用做深度学习的特征、中文生成任务基准测评 、中文缩写数据集、中文任务基准测评 - 代表性的数据集-基准(预训练)模型-语料库-baseline-工具包-排行榜、PySS3:面向可解释AI的SS3文本...