新的scaling law 正在浮现:算力周期性从 scaling 转移到 inference-time compute 对于GPT-4, Claude-3.5 水平的模型,我们推测要合成 1-10T 量级的高质量推理数据才能真正让模型大幅提升其推理能力,对应的成本大致需要 6-60 亿美金,这个在模型训练实验的算力中占的比例也是比较大的。 因此RL 范式下,scaling law ...
Large Language Monkeys: Scaling Inference Compute with Repeated Sampling Brown 等人发现,在 SWE-Bench 上,DeepSeek-Coder从一个样本的 15.9% 增加到 250 个样本的 56%,击败了Sonnet-3.5。 Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters Snell 等人发现,PaLM 2-...
paper:Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters 论文关注的问题: if an LLM is allowed to use a fixed but non-trivial amount of inference-time compute, how much can it improve its performance on a challenging prompt? 方法 1. searching against...
因为训练时计算量不再只是和参数量的上升有关,还多了一个新变量:self-play 探索时 LLM inference 的计算量。RL 的思路本质是用 inference time 换 training time,来解决模型 scale up 暂时边际收益递减的现状。最近 DeepMind 也发布了一篇paper 叫做:Scaling LLM Test-Time Compute Optimally can be More Effective...
推理时间扩展(Scaling Inference-time Compute) 研究还探索了在推理阶段通过增加计算资源(例如使用语音理解模型作为验证器)来优化生成语音的质量。实验表明,推理时间扩展可以显著提高语音的情感表达、音色一致性和内容准确性。 关键方法: 过程奖励模型(PRM):通过逐步优化生成过程来提高语音质量。
推理时间扩展(Scaling Inference-time Compute) 研究还探索了在推理阶段通过增加计算资源(例如使用语音理解模型作为验证器)来优化生成语音的质量。实验表明,推理时间扩展可以显著提高语音的情感表达、音色一致性和内容准确性。 关键方法: 过程奖励模型(PRM):通过逐步优化生成过程来提高语音质量。 输出奖励模型(ORM):通过...
今年以来我们观察到 LLMscaling up 的边际收益开始递减,用 RL self-play + MCTS 提升 LLM 推理能力成为下一个技术范式。在新范式下,LLM 领域的 scaling law 会发生变化:计算量变大仍会带来模型智能的提升,但会从模型参数量变大,转移到 inference-time compute 增加,也就是模型进行更多 RL 探索。
推理时间扩展(Scaling Inference-time Compute) 研究还探索了在推理阶段通过增加计算资源(例如使用语音理解模型作为验证器)来优化生成语音的质量。实验表明,推理时间扩展可以显著提高语音的情感表达、音色一致性和内容准确性。 关键方法: 过程奖励模型(PRM):通过逐步优化生成过程来提高语音质量。
2. 为 VLM 新增的自我反思机制,让模型在测试时能够采样多条推理路径再选择正确答案,从而通过 test-time compute 提升推理性能;该方法具有可扩展性,随采样次数增多能稳定提升性能且优于多数投票。 论文题目: Vision-Language Models Can Self...
Paper tables with annotated results for Llasa: Scaling Train-Time and Inference-Time Compute for Llama-based Speech Synthesis