CoT数据微调 为了增强Marco-o1模型的复杂推理能力,首先要使用CoT数据对其进行微调,使用如表格所示的多种数据集的监督微调(SFT)策略。 image.png Open-O1 CoT Dataset (Filtered):该数据集是基于Open-O1项目的CoT(Chain of Thought)数据集经过精炼和过滤后的版本。团队通过应用启发式和质量过滤过程,显著提升了数据集...
实验比较了多个版本的Marco-o1模型,包括基础的CoT微调版本和不同MCTS策略的版本。 主要实验结果 Yiu6mZ FzYD7b 在英语MGSM数据集上: Marco-o1-CoT相比基线模型Qwen2-7B-Instruct提升了1.37% Marco-o1-MCTS (step)进一步提升至90.40%,比基线模型提高了显著的6.17% 在中文MGSM数据集上: Marco-o1-MCTS (mini-st...
阿里国际AI团队发布的新模型Marco-o1,不仅擅长解决具有标准答案的学科问题(如代码、数学等),更强调开放式问题的解决方案。该模型采用超长CoT数据微调、MCTS扩展解空间等技术,提升了模型在翻译任务及复杂问题解决上的表现。研究团队还开源了部分数据和模型,供社区使用
Marco-o1-CoT模型相比baseline有了一定的提升。其中mgsm-zh的性能下降是由于使用了中文CoT进行推理——研究团队认为推理路径遵循源语言是更容易被使用者所理解的。但是训练数据中中文CoT数据极少,这可能导致了性能下降。不过这部分性能下降在之后的MCTS搜索中得到了恢复。 在使用mini-Step进一步扩大解空间后,观察到了性能...
阿里巴巴国际AI团队最近发布了一款名为Marco-o1的新型推理模型,该模型特别关注开放型问题的解决,不仅局限于具有标准答案的学科领域,如编程和数学。研究团队致力于探索这类模型能否有效推广到难以量化且缺乏明确奖励的领域。Marco-o1模型的特点包括使用超长CoT数据进行微调、利用MCTS扩展解空间、细粒度解空间扩展等。模型...
Marco-o1 采用 CoT 微调[@wei2022chain]、蒙特卡洛树搜索 (MCTS) [@wei2022chain; @feng2023alphazero; @silver2017mastering] 和创新的推理策略来增强推理能力。通过使用筛选后的 Open-O1 CoT 数据集[@openo1team2024openo1]、Marco-o1 CoT 数据集和 Marco-o1 指令数据集对 Qwen2-7B-Instruct[@yang2024qwen2...
Marco-o1使用CoT数据进行SFT训练,其中包括开源CoT数据和合成数据。 Open-O1 CoT Dataset (Filtered):使用启发式过滤和质量过滤过程来处理Open-O1的CoT数据集。 Marco-o1 CoT Dataset (Synthetic):使用MCTS生成Marco-o1 CoT数据集,增强模型的推理能力。 Marco Instruction Dataset:增加了一组instruction-following数据,提...
• Marco-o1 CoT 数据集(合成):我们使用 MCTS 生成了 Marco-o1 CoT 数据集,这有助于制定复杂的推理路径,进一步加强了模型的推理能力。 • Marco指令数据集:认识到在执行复杂任务中,强大的指令遵循能力的关键作用,我们整合了一组指令遵循数据。这种整合确保了模型在广泛的任务中保持能力,同时显著提升了其推理能...
通过微调 Qwen2-7B-Instruct 与过滤后的 Open-o1 CoT 数据集 、Marco-o1 CoT 数据集和 Marco-o1 指令数据集的组合,Marco-o1 提高了对复杂任务的处理能力。 Open-o1 CoT 数据集(已过滤):研究者通过应用启发式和质量过滤过程完善了 Open-o1 项目的 CoT 数据集,这一改进使模型能够有效地采用结构化推理模式。
Open-o1 CoT 数据集(已过滤):研究者通过应用启发式和质量过滤过程完善了 Open-o1 项目的 CoT 数据集,这一改进使模型能够有效地采用结构化推理模式。 Marco-o1 CoT 数据集(合成):研究者使用 MCTS 生成了 Marco-o1 CoT 数据集,这有助于制定复杂的...