1、性能提升:在多个基准测试(如 DROP、WinoGrande、GSM8K、MMLU-STEM 等)上,使用 CODEI/O 和 CODEI/O++ 训练的模型表现优于单阶段基线和其他数据集(如 WebInstruct、OpenMathInstruct2 等),在几乎所有基准测试中都显示出一致的改进,而不仅仅是代码相关任务,还包括逻辑、符号、数学、科学和常识推理等任务。2、...