一般语料库(General Corpus)🌍 这类语料库旨在全面反映一种语言的使用情况,包含多种文本类型,如新闻报道、文学作品、口语交流等。例如,英语的布朗语料库(Brown Corpus)就是一个著名的一般语料库。 专门语料库(Specialized Corpus)🔍 专门语料库专注于特定的语言风格、领域或话题,例如法律语言、医学语言或科技领域的...
行业大模型语料是指用于训练垂直领域大模型的数据集,通常包含自然科学、社会科学等通用语料和行业专用语料。以证券期货行业为例,行业专用语料包括财经新闻、财务报告、法规文件、公开的交易数据等。通过收集和整理语料,可以训练大模型理解和生成行业特定概念和知识,支持行业分析、预测和辅助决策等智能任务。(一)通用语...
CCL语料库中古代汉语语料约2亿字符,收录了从周代到民国的语料及大藏经、二十五史、历代笔记、十三经注疏、全唐诗、诸子百家、全元曲、全宋词、道藏、辞书、蒙学读物等的杂类语料。除了两大单语语料库的扩容外,近年来CCL语料库还融入了一些专题语料库,例如:早期北京话材料、...
01国家语委现代汉语通用平衡语料库 该语料库是由国家语言文字工作委员会主持,面向语言文字信息处理、语言文字规范和标准的制定、语言文字的学术研究、语文教育以及语言文字的社会应用,总体规模达1 亿字,语料时间跨度为1919-2002年,收录了人文与社会科学、自然科学及综合三个...
别再依赖百度了,这些权威语料库绝对是你的好帮手! 🏠国内语料库: 中国特色政治词汇汉英语料库 北京大学法律英文网(北大法宝) 北京语言大学语料库中心(BCC)——全球最大规模的在线语料库,涵盖汉语、英语和法语,共150亿字。 中国传媒大学媒体语言语料库 中国语言资源联盟 🌍国外语料库: 英国国家语料库(BNC) 美国...
一、英文语料库介绍 顾名思义,语料库就是集合了英语书面和口语等各类英文表述方式的语言材料集合。它收集的英语词汇包罗万象,亘古棉今。是英文词汇的一个大全集合。 下面是目前主流的一些语料库列表: 图片来源:billions of words of data: free online access 下面主要介绍有:GBC,BNC, COCA 这三个语料库。 GBC,...
语料对齐一般指的是双语或多语文本的平行对齐,一般以“一对一”对齐为主,也存在“一对二”或“一对多”平行文本的对齐,目前应用最为广泛的语料对齐是句级语料对齐。 常见的语料对齐工具包含两类:一类是CAT软件自带的工具,包括Trados的对齐文档、memoQ的Livedocs等,另一类是独立的工具,包括ABBYY Aligner、Tmxmall等。
ChatGPT作为大模型能先领风骚,主要依赖于英文语料库;如果中国的大模型AI发展要获得突破,必然要依赖于中文。全球目前最有科学性和经过验证的语料来自于学术资料库,包括期刊和文化、出版物,但遗憾的是,在这些载体上发表文章的语言绝大部分都是英语。当前,全球有三大出版物权威数据库,分别是科学引文数据库(SCI)...
什么是人工智能语料库?学过拉丁语的人都知道“corpus”是“身体”的意思,现代英语里的“corpse”被译为“尸体”,源自拉丁语“corpus”。其他人可能也认识 corpus 这个词,因为它在今天仍然适用于现存法律机制中,被译为:人身保护令。这句话的字面意思是“你拥有人身自由权”,它确保任何被逮捕的人都有权出庭,...