实验结果令人振奋:基于OpenMathInstruct-2训练的8B模型在MATH基准测试上的表现比Llama3.1-8B-Instruct模型提高了15.9%,达到67.8%的准确率,成为10B以下参数量中最强的开源模型之一。而70B模型更是达到了71.9%的准确率,超越了Llama3.1-70B-Instruct 3.9个百分点。 这项研究不仅为AI数学能力的提升提供了宝贵的开源资源,也...
[CL] OpenMathInstruct-1: A 1.8 Million Math Instruction Tuning Dataset O网页链接 OpenMathInstruct-1是一个包含180万个问题-解决方案对的数学指令数据集,通过生成流行的数学推理基准问题的代码解释器解决方案来构建。该数据集填补了闭源和开源语言模型之间的差距,并取得了竞争性的性能。OpenMathInstruct-1比现有数...
1、性能提升:在多个基准测试(如 DROP、WinoGrande、GSM8K、MMLU-STEM 等)上,使用 CODEI/O 和 CODEI/O++ 训练的模型表现优于单阶段基线和其他数据集(如 WebInstruct、OpenMathInstruct2 等),在几乎所有基准测试中都显示出一致的改进,而不仅仅是代码相关任务,还包括逻辑、符号、数学、科学和常识推理等任务。2、...
(1)I use vllm’s api ,error for example Question: Melanie is a door-to-door saleswoman. She sold a third of her vacuum cleaners at the green house, 2 more to the red house, and half of what was left at the orange house. If Melanie has 5 vacuum cleaners left, how many did she...
python3 run.py --models hf_qwen2_7b_instruct --datasets math_gen Reproduces the problem - error message As the image1 shows, the tested accuracy of Qwen2-7b-Instructed on MATH is 23.76, which is dramatically lower than the reported score on the CompassRank(shown in image2)and other rel...
MAmmoTH模型是在我们精心策划的指令调整数据集MathInstruct上进行训练的。MathInstruct是从13个具有中间推理的数学数据集中编译而来,其中六个数据集是由我们新整理的。它呈现了一种独特的思维链(CoT)和程序化思维(PoT)推理的结合,同时也确保了数学领域中广泛的内容覆盖。思维链和程序化思维的结合不仅释放了工具使用潜力,...