第二,所谓新型的RL的Scaling law。OpenAI自己PR可能更强调这点,各种解读也比较看中这一点。我猜测o1的RL大概率要么用了相对复杂的、类似AlphaGo的MCTS树搜索,要么用了简单树结构拓展,比如生成多个候选,从中选择最好的(Best-of-N Sampling),这种策略如果连续用,其实也是一种简单的树搜索结构。也有可能两者一起用...
中文版 | ENGLISH 产品推荐 合作伙伴 中国音响网 中国音响第一网 慧聪音响灯光网 杜比实验室 广东省声像灯光科技促进会 广东省江西商会