专用语料库,旨在满足特定研究目的,将某一领域的语料汇集而成。这类语料库能够深刻反映该领域的语言特性,为提取专业术语、编制专业工具书等科研活动提供有力支持。通过与通用语料库的对比,利用专用语料库进行的翻译或语言学研究,能更深入地剖析特定领域语言的特点。例如,汉语国际教育技术研发中心的HSK动态作文语料库...
语料库语言学(Corpus linguistics)指的是以语料库为基础的语言学研究方法,它立足于大量精心采集的文本,通过概率统计方法得出结论,不仅提供统计数据和真实语料,还可以构建新理论并验证现行理论。 在国际中文教学、语言学等相关领域的研究中,语料库语言学不仅...
使用方法:1.首先要知道语料库总共的章节一共是12章,需要重点听读的章节是3.4.5.11,正确高效听读的顺序是5-11-3-4,基础较弱的宝子可以先把内容先抄写下来,采用边听边读边写的方法,慢慢去熟悉听力节奏 2.在每攻克一个环节之后,一定要去总结这个总结不仅限于去看自己的错题还要找出为什么当时在听这一...
一、语料库的使用方法 1.登录语料库 首先在网站上登录语料库,根据自己的需要进行搜索,找到自己需要的语料库,然后将语料库添加到自己的收藏夹中。 2.访问语料库 然后可以通过在网站上进行搜索的方式来访问语料库,例如可以通过关键字来定位资源,还可以根据文档格式进行筛选,以及根据语料库的主题类型来进行选择。 3.下...
语料库按用途可分为微调、预训练和评估类型,每种类型面临不同的构建挑战,如数据相关性、规模和标注。例如,微调语料库专注于特定任务,如问答或文本生成,并包含相应的输入与期望输出。这类语料库的挑战在于确保数据与目标任务高度相关且质量上乘。预训练语料库则规模宏大,涵盖广泛的文本数据,旨在让模型习得通用语言...
这里我们以Common Voice语料库上的粤语数据为例讲解如何把只有录音的语料库构建为方便MFA进行建模的结构。为此我们首先要搭建一个所有录音文件都有对应的标注信息(textgrid格式)的语料库,然后要生成一个发音词典,把每个单词的读音以国际音标的形式标注出来(此一步不一定必须要用国际音标,X-SAMPA或者ARPABET或其他体系的...
然后输入以下命令验证语料库(记得将下面的文件和文件路径替换为你电脑上的文件和文件路径)。其中第一个路径为录音文件和标注文件所在文件夹,第二个路径为你的发音词典所在位置。 mfa validate C:\Users\samfi\Downloads\yue\validated C:\Users\samfi\Downloads\yue\yue_dict.txt --ignore_acoustics --clean 验...