o1-Coder:用于编码的「o1」 | 该报告介绍了 O1-CODER,它是对 OpenAI 的 o1 模型的复制尝试,重点关注编码任务。它整合了强化学习(RL)和蒙特卡洛树搜索(MCTS),以增强模型的系统 2 思维能力。该框架包括训练用于标准化代码测试的测试用例生成器(TCG),使用蒙特卡洛树搜索生成带有推理过程的代码数据,以及迭代微调策略模...