RedPajama-1T包含了1万亿高质量的英语token。随着RedPajama-V2的发布,Together AI迈出了开放数据集发展的更大一步,发布了一个庞大的、包含30万亿标记的网络数据集。这是专门用于大型语言模型训练的最大公开数据集。更令人兴奋的是,RedPajama-Data-v2还包括了40多个预先计算的质量注释,允许社区进一步筛选和加权数据。