STMA:用于长程具身任务规划的时空记忆agent具身智能的一个关键目标是使智能体(agent)能够在动态环境中执行长程(long-horizon)任务,同时保持鲁棒的决策和适应能力。为了实现这一目标,未来智联网络研究院(FNii)团队提出了时空记忆智能体(agent)——STMA,这是一个新颖的框架,旨在通过整合时空记忆来增强任务规划和执行。STMA 由
监督微调革命:CFT仅用8小时训练超越强化学习 | 当所有人都在讨论强化学习时,这篇研究给监督微调(SFT)注入了新生命——通过对错误答案进行批判性思考训练,仅用8小时GPU训练就实现22%的性能提升,甚至超越需要上千小时训练的强化学习方法。 这项名为CFT的技术突破揭示:AI模型的潜力可能被传统训练范式严重低估。研究者...