语料库(Corpus)是指经过科学取样和加工的大规模电子文本库,用于存储语言数据,以供语言研究和语言应用使用。这些语言数据涵盖了各种语言的书面语和口语形式,可以是文本、音频或视频格式。语料库语言学是语料库研究的一个主要领域,它运用语料库对语言进行分析和研究。 语料库的建设通常涉及以下步骤: 确定语料收集的目标:这涉及确定需要收集哪些类型的
语料库(Corpus)是指汇集并保存语料的地方,特指基于现代计算机技术存储语料的数据库,也就是经过精心收集和整理的大规模电子文本集合。以下是关于语料库的详细介绍: 一、定义与特点 定义:语料库是一个经科学取样和加工的大规模电子文本库,存储了在语言实际使用中真实出现过的语言材料,为语言研究提供丰富的资源和数据支持...
语料库是训练语言模型的基础数据。例如,ChatGPT等大模型依赖海量语料库学习语言规律。根据斯坦福大学的研究,高质量语料库可使机器翻译准确率提升30%以上。 语言学研究 通过分析高频词、搭配模式等,揭示语言演变规律。例如,通过对历史语料库的分析,发现英语中“literally”一词逐渐从“字面意...
语料库是什么意思 1、语料库的拼音:[ yǔliào kù] 2、基本解释 指经过科学取样和加工的规模较大的电子资料库,其中存放的是在语言的实际使用中真实出现过的语言材料。 3、详细解释 一种为特定目的或原则收集的语言或文字的电子资料库,通常以机读形式储存。
语料库,就是把平常说话的句子以及一些文学作品、报刊杂志和学术文章上出现过的语句段落等等语言材料整理在一起,形成一个集合,以便做科学研究的时候能够从中取材或者得到数据佐证。 语料库中的语言可以是书面语,也可以是由口语转写而来的文本,但...
什么是人工智能语料库?学过拉丁语的人都知道“corpus”是“身体”的意思,现代英语里的“corpse”被译为“尸体”,源自拉丁语“corpus”。其他人可能也认识 corpus 这个词,因为它在今天仍然适用于现存法律机制中,被译为:人身保护令。这句话的字面意思是“你拥有人身自由权”,它确保任何被逮捕的人都有权出庭,...
百度试题 结果1 题目语言学中的“语料库”是什么? A. 语言学家收集的大量语言数据 B. 语言学家进行实验的实验室 C. 语言学家进行教学的教室 D. 语言学家进行研究的图书馆 相关知识点: 试题来源: 解析 A 反馈 收藏
1、语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源。应用于词典编纂,语言教学,传统语言研究,自然语言处理中基于统计或实例的研究等方面。2、语料库分类异质的、同质的、系统的、专用的。3、语料库特征语料库中存放的是在语言的实际使用中真实出现过的语言材料,因此例句库通常不应算作语料...
语料库,就是把平常说话的句子以及一些文学作品、报刊杂志和学术文章上出现过的语句段落等等语言材料整理在一起,形成一个集合,以便做科学研究的时候能够从中取材或者得到数据佐证。 我们写文章用词搭配时,就可以通过在语料库中搜索来查看这个词出现的频率及用法搭配等等。