OpenAI o1 提到了关于 RL 在训练和推理时候的 Scaling law,并指出这与预训练时候的 Scaling law 具有不同特性。很明显,如果 o1 走的是 MCTS 搜索技术路线,那么把 COT 拆分的越细(增加搜索树的深度),或提出更多的可能选择(节点的分支增多,就是说树的宽度越宽),则搜索空间越大,找到好 COT 路径可能性...
OpenAI o1 的做法本质上是 COT 的自动化。我们知道,通过 COT 把一个复杂问题拆解成若干简单步骤,这有利于大模型解决复杂逻辑问题,但之前主要靠人工写 COT 来达成。从用户提出的问题形成树的根结点出发,最终走到给出正确答案,可以想像成类似 AlphaGo 下棋,形成了巨大的由 COT 具体步骤构成的树形搜索空间,这里 COT...
OpenAI o1 提到了关于 RL 在训练和推理时候的 Scaling law,并指出这与预训练时候的 Scaling law 具有不同特性。很明显,如果 o1 走的是 MCTS 搜索技术路线,那么把 COT 拆分的越细(增加搜索树的深度),或提出更多的可能选择(节点的分支增多,就是说...
由于OpenAI的技术封闭性,我们并不清楚o1的实现机制,目前很多研究都在探索关于 OpenAI o1 是如何实现这一突破的,本次分享将集中在这一主题,由新浪微博首席科学家张俊林带大家一起探究o1的技术原理和可能的实现机制。 大模型2.0系列读书会旨在深入...
新浪微博机器学习团队 AI Lab 负责人张俊林,针对OpenAI o1原理进行逆向工程图解。 原贴:https://zhuanlan.zhihu.com/p/721952915 OpenAI o1的推出称为横空出世不为过,尽管关于Q*、草莓等各种传闻很久了,用了强化学习增强逻辑推理能力这个大方向大家猜的也八九不离十,但是融合LLM和RL来生成Hidden COT,估计很少人能...
一、OpenAI o1是大模型的巨大进步 我觉得OpenAI o1是自GPT 4发布以来,基座大模型最大的进展,逻辑推理能力提升的效果和方法比预想的要好,GPT 4o和o1是发展大模型不同的方向,但是o1这个方向更根本,重要性也比GPT 4o这种方向要重要得多,原因下面会分析。
蹭下热度谈谈 OpenAI o1 的价值意义及 RL 的 Scaling law。 一、OpenAI o1 是大模型的巨大进步 我觉得 OpenAI o1 是自 GPT 4 发布以来,基座大模型最大的进展,逻辑推理能力提升的效果和方法比预想的要好,GPT 4o 和 o1 是发展大模型不同的方向,但是 o1 这个方向更根本,重要性也比 GPT 4o 这种方向要重要...
蹭下热度谈谈 OpenAI o1 的价值意义及 RL 的 Scaling law。 一、OpenAI o1 是大模型的巨大进步 我觉得 OpenAI o1 是自 GPT-4 发布以来,基座大模型最大的进展,逻辑推理能力提升的效果和方法比预想的要好,GPT-4o 和 o1 是发展大模型不同的方向,但是 o1 这个方向更根本,重要性也比 GPT-4o 这种方向要重要...
这意味着,当o1面临复杂的问题时,它不仅是简单地从已有的数据中寻找匹配,而是能够进行一种类似于“慢思考”的过程。这种能力使其在物理、数学、生物和化学等多个学科领域表现不俗,标志着AI的另一个技术突破。张俊林同时指出,o1模型的实现涉及复杂的技术背景,因此在此次分享中,我们会重点关注这一新技术的主要构成。
OpenAI o1推出后,另外两个阶段不再孤单,也各自拥有了姓名,产生了各自的Scaling Law,对应后训练阶段的强化学习Scaling Law(RL Scaling Law)和在线推理阶段的Inference Scaling Law(也叫Test Time Scaling Law)。 三个阶段Scaling Law核心思想是一样的:就是说在本阶段,如果增加算力,则大模型效果会持续提升。当然上图...