在学术英语语料库的视角下,“通用语料库”和“专用语料库”分别指什么? 学术英语所用的通用语料库一般是代表多语域的学术英语整体,比如BNC学术语体集合。这类通用语料库可用于揭示学术英语有别于其他语体的专有语言特点。 与整个BNC语料库相比,BNC的学术语体集合为一般意义的“专用语料库”,可以对比出学术语体的关键...
通用单语语料库,作为多语种语料库建设的重要组成部分,涵盖了多种语言类型的文本数据。其构建旨在为自然语言处理、机器翻译、语音识别等应用提供高质量、全面的语料资源。通过收集和整理各类文本数据,通用单语语料库能够支持多领域的语言研究,推动语言技术的进步。同时,其丰富的语料资源也为语言模型训练、性能评估提供...
本次仿写教学包括四部分:『小标题』『开头结尾』『正文』『语料积累』,来帮助大家渡过从零到一的难关,勇敢牛牛,不怕困难!勇敢崽崽,不怕论述! 我仿谁?仿写啥? 所有优秀的文章其实都可以成为我们仿写的对象。像日常看到的新闻、好的时...
语料库通用技术规范1适用范围 本规范描述并规定了语料库的建设与加工、管理与维护、交易与共享。关于语料库的其他规范将在之后以系列规范的形式予以发布。 通过实施本规范,语料库提供方可以证明其语料是否符合语料库规范,是否能够满足基本的语料使用要求;语料库使用方可以判断语料库是否能够用于某特定用途。 2规范性引用...
《汽车驾驶自动化系统通用语料库》系列标准拟分为六个部分: ——第1部分:总体要求; ——第2部分:术语与定义; ——第3部分:语料数据采集; ——第4部分:语料数据清洗; ——第5部分:语料数据标注; ——第6部分:语料数据测试。 本文件为第3部分。
标注语料库在样本分布方面近似于全库,不破坏语 料选材的平衡原则。标注语料库类别分布如下所示: 标注语料库与全库的样本分布比较如下所示: (蓝色曲线为语料库全库;红色曲线为标注语料库) 2. 国家语委现代汉语通用平衡语料库语料选材与样本分布 2.1 选材原则 依据材料内容,选材大体作如下分类:(下文字数为建库时...
新时代人民日报通用语料库发布 11月24日,在中国社会科学情报学会学术年会上,新时代人民日报分词语料(New Era People's Daily Segmented Corpus,简称NEPD)发布,这是由南京农业大学黄水清教授团队推出的最新版现代汉语通用语料库,是对北京大学1998年人民日报语料库的补充。黄水清教授表示,NEPD的相关语料将对学界公布,供...
新版RM日报语料——新时代RM日报分词语料(简称New Era People's Daily Segmented Corpus,NEPD)。NEPD规模现已超过2300万字,全部由人工标注跟机器标注,是目前世界上规模最大的汉语精加工通用语料库,该语料库可以很好的满足现有中文大模型的训练
在真实语料中提取词表面临着许多技术与理论上的难点与困难,但它又有着特殊的价值."通用语料库"是国家语委组织研制的大型语料库,基本反映了现代汉语的语言面貌,完成对它的词表提取,其过程、做法及词表结果,都有着重要意义.机器分词时会遇到分词的正确性、加工精度的可容性、机器分词的强制性、机器分词的局限性等问...