后续工作也非常多(例如基于prompt,基于chain of thought,基于ChatGPT等),例如同时期的工作还有Google的LLM for rating prediction[10], 与GPT4Rec类似,都是采用迁移模型评估性能极限,一个专注top-n item推荐,一个专注rating prediction。
• LLM+P:通过结合基于PDDL的符号规划器,使用LLM将问题组织成PDDL语言格式,并利用Fast Downward solver进行规划。 • LLM-DP:特别为动态交互环境设计,将环境反馈信息形式化为PDDL语言,并使用BFS solver生成规划。 • LLM+PDDL:在LLM生成的PDDL模...
Parallelization:LLMs 同时进行工作,并将输出聚合,主要分为两种变体:Sectioning,将任务分为独立子任务并行运行;Voting,多次运行相同的任务以获得多样化的输出; Orchestrator-workers:中心大型语言模型(LLM)动态分解任务,将它们委托给工作LLM,从结构上看,其实和Routing、Parallelization非常相似,Orchestrator-workers可看作是 Par...
论文链接:[2405.11106] LLM-based Multi-Agent Reinforcement Learning: Current and Future Directions (arxiv.org) 源代码链接:(本篇为综述类论文,不含源代码) 本文大概将 RL 分成了三类:传统 MARL、基于 LLM 的单智能体 RL 和现有的基于 LLM 的 MARL 框架。 MARL 首先什么是 MARL?MARL 可以用分散式部分可...
本篇主要针对LLM-based Agent,即Agent基于大语言模型进行思考规划,获取信息,并从大模型与外界学习知识并自学习与利用。 多智能体Multi-Agent则是可以通过多个Agent进行协作配合完成更复杂的工作。 特点: - 自主AI代理是根据给定的目标进行训练工作的 - 拥有LLM(大语言模型)之外的规划、内存、工具使用、反思能力 ...
- 数据清洗(data clean) - 数据变换(data transform) - 数据分析(data analysis) 这一步包括特征选择和 - 模型选择和训练和评估 每一个环节都对应一个策略,然后不断迭代,根据评估结果来适当调整这些环节策略从而拿到一个好的策略和结果 数据智能分析系统的设计是一个涉及多个环节、策略驱动和不断迭代的过程。通过...
1. 175B 的参数 LM 可能还没有达到其性能上限,通过观察到 LLM 的参数量从 13B 到 175B 时,TCF 模型的性能还没有收敛。这一现象表明将来使用更多参数的 LLM 用作文本编码器是有带来更高的推荐准确性的潜力的; 2. 即使是由极其庞大的 LM(如 GPT-3)学习到的物品表示,也未必能形成一个通用的表征。在相应...
- 数据清洗(data clean) - 数据变换(data transform) - 数据分析(data analysis) 这一步包括特征选择和 - 模型选择和训练和评估 每一个环节都对应一个策略,然后不断迭代,根据评估结果来适当调整这些环节策略从而拿到一个好的策略和结果 数据智能分析系统的设计是一个涉及多个环节、策略驱动和不断迭代的过程。通过...
A unified framework for the architecture design of LLM-based autonomous agent from A Survey on Large Language Model based Autonomous Agents Agent系统概述 规划是大语言模型(LLMs)解决复杂问题的关键能力,它涉及创建一系列动作来实现特定目标。自主智能体,作为 LLMs 的一个重要应用,是实现通用人工智能(AGI)的...
该工作主要梳理了LLM-based Agent 中的规划(planning)能力。 Paper:Understanding the planning of LLM agents: A survey ArXiv:https://arxiv.org/abs/2402.02716 文章中,作者将planning能力进一步细分为了五个维度: 1. 引言 (Introduction) 2. 任务分解 (Task Decomposition) ...