作为斯坦福大学强化学习专业博士,现在创业做Agent的他,抛出了一个巨大的反共识观点: "LLM只是一个翻译官,真正的Agent核心应该是RL。" 等等,这是什么意思? 在2024年,我们见证了GPT-4掀起的Agent热潮。Claude、GPTs、Copilot...几乎所有大公司都在用LLM构建Agent。 但Bill却说,这条路走偏了? 并且,他用自己的技术...
LLM based Agent可以利用LLM的强大语言理解和生成能力,以及广泛的预训练知识,来处理各种任务,可以利用语言来表达任务、指令、反馈和结果。LLM based Agent与传统的基于强化学习(RL)的智能体相比:LLM based Agent可以利用少量的示例或上下文信息来进行快速的推理和泛化;而传统RL Agent通过与环境交互和获得奖励或惩罚来学习...
文章提出了一个LLM + RL的推理框架。包含以下几步: LLM获取狼人杀游戏信息(包括player的身份、过去的对局信息等,按规范的格式给出),提出多样、可能的actions(如下一步agent该说什么)。其中产生多样action,是设计了一个prompt,让LLM一次输出多个action,如“propose N diverse actions that correspond to different str...
•Agent:agent 会根据对环境的观测和感知来输出一个动作,目标是得到更高的 reward。agent 这个概念最早就是来自强化学习。 如果把这里的 agent 主体换成 LLM,那么会在探索的过程中做很多 LLM inference。因此这里RL 在 LLM 中应用的思路本质是用 inference time 换 training time,来解决模型 scale up 暂时边际收...
来自字节跳动 ByteDance Research 的研究人员提出了基于强化学习(Reinforcement Learning, RL)的 LLM Agent 框架 ——AGILE。该框架下,Agent 能够拥有记忆、工具使用、规划、反思、与外界环境交互、主动求助专家等多种能力,并且通过强化学习实现所有能力的端到端训练。
来自字节跳动 ByteDance Research 的研究人员提出了基于强化学习(Reinforcement Learning, RL)的 LLM Agent 框架 ——AGILE。该框架下,Agent 能够拥有记忆、工具使用、规划、反思、与外界环境交互、主动求助专家等多种能力,并且通过强化学习实现所有能力的端到端训练。尤其值得注意的是,AGILE 框架允许 Agent 在不自信时主...
现在的LLM agent一个很重要的堵点在于把一个任务拆解成单元步骤后的数量其实是很多的,而且有的任务发散出的状态树特别多,非常多的状态空间下即使是很低的幻觉率依然有不小的概率出现错误的输出,这时候agent往往不知道退回到哪一步进行修正(比如是第八步错了还是第三部错了?),然后GG。
通过这个例子我们可以看出,RL 的最终目标其实就是要让机器人(Agent)学会:在一个给定「状态」下,选择哪一个「行为」是最优的。 一种很直觉的思路就是:我们让机器人不断的去玩游戏,当它每次选择一个行为后,如果这个行为得到了「正奖励」,那么下次就多选择这个行为;如果选择行为得到了「负惩罚」,那么下次就少选择...
Guangmi Li:传统强化学习与今天的 self-play 强化学习相比,最大的变量和区别是强化学习的主体 agent 计算量增加了 3-4 个数量级。 最早的 AlphaZero 是一个千万参数的神经网络,和今天的语言模型相差 3-4 个数量级。RLHF 的目的不是获取机器智能,而是人机对齐,使得 AI 能够更像人,但不能超越人成为超级智能。
•Agent:agent 会根据对环境的观测和感知来输出一个动作,目标是得到更高的 reward。agent 这个概念最早就是来自强化学习。 如果把这里的 agent 主体换成 LLM,那么会在探索的过程中做很多 LLM inference。因此这里RL 在 LLM 中应用的思路本质是用 inference time 换 training time,来解决模型 scale up 暂时边际收...