它为我们提供了一个专门用于数学推理的LLM,通过对数学数据进行持续预训练来实现。🔥 📌 还为我们提供了庞大的550亿标记的Proof-Pile-2数学文本和代码数据集,用于预训练数学语言模型。 --- 📌 具体来说,Proof-Pile-2 包括: - 来自ArXiv计算机科学论文的290亿标记。 - 来自OpenWebMath的150亿标记 - 一组...