最近的工作表明,增加训练数据集的多样性可以提高大规模语言模型的跨领域知识和下游泛化能力。基于此,作者介绍了Pile:一个面向训练大规模语言模型的825 GiB英语文本语料库。Pile由22个多样化的高质量子集构成,包括现有的和新构建的子集,许多子集来自学术或专业来源。作者对GPT-2和GPT-3在Pile上的未调优性能进行了评估,...
n=5top_n = itertools.islice(pretrained_dataset,n)for i in top_n: pprint.pprint(i) 报错:FileNotFoundError: the-eye.eu/public/AI/pi 代码更改如下便一切OK: pretrained_dataset = load_dataset('monology/pile', split='train', streaming=True) ...
论文中提到的IEPILE数据集是一个大规模的双语(英语和中文)信息抽取指令数据集,它通过收集和清洗现有的信息抽取数据集,并采用基于模式的指令生成策略来构建。这个数据集旨在提高大型语言模型(LLMs)在信息抽取任务上的性能,尤其是在零样本泛化方面。以下是IEPILE数据集在不同领域的应用效果: 比如新闻领域: 我是一家财...
MusicPile是由Multimodal Art Projection Research Community、Skywork AI和香港科技大学联合推出的一个大型音乐-语言预训练数据集。该数据集包含517万个样本,约41.6亿Token,来源包括网络语料库、百科全书、音乐书籍、YouTube音乐字幕、ABC记谱法作品、数学内容与代码。数据集包含id、text和src三个字段,每段文本Token不超...
CinePile是马里兰大学和魏茨曼科学研究所联合构建的一个针对长视频理解而设计的大型数据集。该数据集包含约305,000个多项选择题,源自9396个视频片段,涵盖了对视频内容的多维度理解,包括时间理解、人物与物体交互以及场景内事件或动作的推理等方面。数据集的构建过程采用自动化问题生成与验证的方法,结合了大模型和人工审核...
作者们在诉讼中表示,Anthropic 使用了一个庞大的开源数据集“The Pile”来训练其 Claude 系列 AI 聊天机器人。这个数据集包含了一个名为 Books3 的部分,这是一个巨大的盗版电子书库,其中包括 Stephen King、Michael Pollan 和数千名其他作家的作品。本月早些时候,Anthropic 向 Vox证实其使用了 The Pile 来训练 ...
数据集的类型五花八门,其大小也有千差万别。可以简单了解一下这两个公开可用的数据集:它们分别为ImageNet及The Pile,前者有1400万张图像和共计150GB的数据集大小,可用于创建通用图像识别系统;The Pile则是一个大小为825G的语言示例集,可用于制作通用自然语言处理系统。
英文名称/English Name: Piletech Machinery Co., Limited 成立日期/Date of Establishment: 2014-06-09 行业分类/Category:机械 (点击查看香港机械公司名单) 注册地/Registered Area:九龙 行政分区/Administrative Division:油尖旺 下级分区/Sub District:香港油尖旺区旺角商业企业名单 街道/Street:香港旺角道商业登...
IEPILE数据集: 这是一个大规模的双语(英文和中文)IE指令数据集,包含约32亿个token。 通过收集和清洗33个现有的IE数据集构成,并引入基于模式的指令生成策略,以挖掘大规模语料库。 数据集地址:zjunlp/iepile|信息抽取数据集|大规模语料库数据集 采用了基于模式的指令生成策略,以提高模型的泛化能力。
开源了MathCode-Pile数据集,19.2B Token的高质量数据集,包含数学相关的网页数据、使用数学包的代码、数学书籍、合成数据等。同时也开源了数据收集和处理的相关代码,过程可复现。 在合成数据方面,提出了一个方法,用于生成高质量的数学-代码数据,步骤如下: