使用 DeepSeek-V2.5 生成 CoT 响应,构建 CODEI/O 数据集。通过代码执行验证预测结果,并在错误预测上进行多轮修订,生成 CODEI/O++ 数据集。实验结论1、性能提升:在多个基准测试(如 DROP、WinoGrande、GSM8K、MMLU-STEM 等)上,使用 CODEI/O 和 CODEI/O++ 训练的模型表现优于单阶段基线和其