我们对现有的 LLM-Agent 规划工作进行了分类,可分为任务分解、计划选择、外部模块、反射和记忆。对每个方向进行了全面的分析,并讨论了该研究领域的进一步挑战。 一、简介 自动agent已被认为是能够通过感知环境、规划和执行动作来完成特定任务的智能实体。规划是agent最关键的能力之一,需要复杂的理解、推理和决策过程。
随着大模型应用场景越来越复杂化,单纯依赖大模型的能力将面临巨大的挑战,为此用好大模型能力,构建大模型Agent将是大势所趋。微软研究人员也深入探讨了Agent AI的基础,强调了智能Agent在物理、虚拟现实、混合现实、感官交互等方面的能力,并指出Agent AI或是下一代人工智能的关键。其研究重点在于「多任务学习」、「常识...
这里通过“输入、模型/范式、输出、其他”几个方面来展开,个人觉得比较看好的方向加粗标出: 输入 数据优化 RAG 模型/范式 LLM + Robotics-Agent-统一模态生成-Vision-Language Models-架构设计 输出 生成内容安全问题 评测问题 其他 NLP经典任务 垂类大模型 交叉学科 输入 这一节就跟pre-training、instruction tuning...
微软研究人员也深入探讨了Agent AI的基础,强调了智能Agent在物理、虚拟现实、混合现实、感官交互等方面的能力,并指出Agent AI或是下一代人工智能的关键。其研究重点在于「多任务学习」、「常识推理和持续学习」,旨在提高Agent在广泛任务上的表现和适应性。 智谱提出新型自动化网页导航Agent:AUTOWEBGLM 本文提出了一个...
【LLM研究的开放挑战:讨论了提升大型语言模型(LLM)的十个研究方向,包括:减少和衡量幻觉、优化上下文长度和构造、整合其他数据模态、提升LLM的速度和成本效益、设计新的模型架构、开发GPU替代品、提升智能体(Agent)的可用性、改进人类偏好学习的方法、提升聊天界面效率、为非英语语言构建LLM等】《Open challenges in LLM...
A Survey on the Memory Mechanism of Large Language Model based Agent 最大内积搜索 Maximum Inner Product Search 外部存储可缓解有限注意力跨度的限制,一定程度上避免模型输出带有幻觉的答案。一种常见的做法是将信息的嵌入表示保存到向量数据库中,该数据库能够支持快速的最大内积搜索。常见的选择是最近邻算法以返...
二、大模型Agent:让AI真正成为“智能助手” 随着AI应用场景日趋复杂,单一模型难以应对多变需求,因此基于大模型构建多功能、能自我决策的大模型Agent正成为趋势。大模型Agent不仅能够自主推理,还能动态适应复杂环境,被视为智能助手的下一代形态。 研究重点:
前两周 AutoGPT,BabyAGI 等项目异常火爆,周末也正好花了点时间来看了下这些 AI agent 类项目的代码,写篇文章来总结一下对于当前这类项目进展的技术角度认识和思考,与大家一同交流。 从语言理解到任务执行 之前大多相关项目和产品都主要利用了 GPT 模型的语言理解方面的能力,例...
Agent指可以执行动作的大语言模型(可以理解为那些可以代替你来完成各种任务的代理人,所以叫Agent),例如浏览互联网、发送电子邮件、预订等。与本文中其他研究方向相比,这可能是最新的方向之一。由于Agent本身的新颖性和巨大潜力,人们对Agent充满热情。而Auto-GPT现在是GitHub上 标星数量排名第25的、最受欢迎的repo。
而对我自己来说,最感兴趣的是下面列出的第 3 个方向(Multimodality多模态数据模式)、第 5 个方向(New architecture 新架构)和第 6 个方向(GPU alternatives开发GPU替代的解决方案)。 LLM 研究的十大公开挑战: 减少并评估输出输出(虚构信息) 优化上下文长度和上下文构建 ...