在这里,我们想强调我们开发的API-Bank与同时发布的APIBench(Patil et al., 2023)和基于实验结果的ToolAlpaca(Tang et al., 2023)之间的差异。GPT-3.5在他们的数据集上达到了80%到90%的API使用准确率。然而,在我们的基准测试中仍有显著的改进空间。这是因为我们的评估集是手工构造的,考虑到设计原则并且与现实世...
23年10月阿里、香港科技大学、北大和深圳智能思创的论文“API-Bank: A Comprehensive Benchmark for Tool-Augmented LLMs”。 大语言模型 (LLM) 可以通过利用外部工具来增强其功能。 然而,三个关键问题仍未得到解答:(1) 目前的LLMs在使用工具方面的效率如何? (2)如何提高LLMs运用工具的能力? (3) 使用工具需要...
there has been a lack of systematic evaluation to demonstrate the efficacy of LLMs using tools to respond to human instructions. This paper presents API-Bank, the first benchmark tailored for Tool-Augmented LLMs. APIBank includes 53 commonly used API tools, a complete Tool-Augmented LLM workflo...