代理需要通过与执行环境交互来端到端地解决这些任务。这个基准测试包含了DAEval,一个由603个数据分析问题组成的数据集,这些问题来源于124个CSV文件,以及一个集成了LLMs作为数据分析代理的代理框架,用于服务和评估。由于数据分析问题通常是开放式的,没有人类监督很难...
本文汇总了ICML'24中录用的17篇与大语言模型智能体相关的论文。 Should we be going MAD? A Look at Multi-Agent Debate Strategies for LLMs 最近的大型语言模型 (LLMs) 的进步突显了它们在各个领域回答询问的潜力。然而,确保生成性智能体提供准确可靠的答案仍然是一个持续的挑战。在此背景下,多智能体辩论 (...