CCL语料库中古代汉语语料约2亿字符,收录了从周代到民国的语料及大藏经、二十五史、历代笔记、十三经注疏、全唐诗、诸子百家、全元曲、全宋词、道藏、辞书、蒙学读物等的杂类语料。除了两大单语语料库的扩容外,近年来CCL语料库还融入了一些专题语料库,例如:早期北京话材料、留学生汉语作文语料、汉语构式语料库、中文...
通常,参考语料库针对单一语言,通常是一个国家的标准和/或官方语言。因此,这些语料库是单语的。 也有包含多种语言文本的多语语料库。 在多语语料库中,我们还可以区分平行语料库、视差语料库和可比语料库。 3.3.1.3.5 以研究为导向的语料库 典型的形态句法标注包括词性标注(PoS标注),用于捕捉语料库中令牌词形的...
校对无误后,点击上方“Export to TMX”即可导出为TMX格式文件。 语料转换-Heartsome Tmx Editor 以上面我们得到的TMX文件为例,使用Heartsome Tmx Editor打开该文件,之后便可以将其转换为其他格式。 点击上方“Convert TMX to”按钮,在弹窗中可以选择目标格式。以下便以docx格式为例。 之后便可以在word文档中打开中英文...
行业大模型语料是指用于训练垂直领域大模型的数据集,通常包含自然科学、社会科学等通用语料和行业专用语料。以证券期货行业为例,行业专用语料包括财经新闻、财务报告、法规文件、公开的交易数据等。通过收集和整理语料,可以训练大模型理解和生成行业特定概念和知识,支持行业分析、预测和辅助决策等智能任务。(一)通用...
根据计算机技术的发展,我们将语料库计算机化以前的语料库称为传统语料库,将计算机化以后的语料库称为现代语料库。 传统语料库 计算机化以前的传统语料库主要有以下三种用途: 1. 为词典编撰、语法研究而收集的语料库 牛津英语词典(Oxford English Dictionary):1928 年引证 400 ...
寻找“向善语料“的标准是一个不断对齐的过程,好语料需要获得大多数人的认同,为此本次共读会专门设置了“寻找暖心点“这一环节,希望参会嘉宾能够从其他嘉宾提供的答案中找到共鸣。首先发言的是AI社创杯的发起人刘文杰先生,给到他的问题是一位老人苦恼于自己的孙女不理解他和老伴两人囤菜和吃剩饭,他表示这个...
注册即可免费使用!YiCorpus多功能语料检索平台是具有学科特色的专业语料资源检索平台,具备语料导入、编辑审核、关键词检索、查询结果展示、词表统计、结果导入、词云展示等功能,拥有单语语料库、多语平行语料库和术语库三大模块。
国外语料库资源 1. 杨百翰大学语料库 http://view.byu.edu 杨百翰大学的Mark Davies教授开发的语料库统一检索平台,整合了美国当代英语语料库、美国历史英语语料库、美国时代杂志语料库、BNC、西班牙语料库、葡萄牙语料库等6个语料库的资源。该网站每月有60,000人的使...
BCC汉语语料库是由北京语言大学语言智能研究院研发的通用单语语料库。汉语语料库总字数95亿字,涵盖了报刊、文学、对话、微博、科技、综合和古汉语等多领域语料,是可以全面反映当今社会语言生活的大规模熟语料库。BCC语料库包括了生语料、分词语料、词性标注语料和句法树,已对现代汉语的语料进行词性标注。BCC汉语语料库...