在执行指令时,API检索器会向ToolLLaMA推荐相关的API,ToolLLaMA通过多轮API调用得出最终答案。整个推理过程由ToolEval评估。 研究人员主要是从RapidAPI来收集API,所有的API都可以分为49个粗粒度类别,例如体育、金融和天气。研究人员评测了这些API,最后经过筛选,留下了16,464个API。LLM的prompt(提示)中包括了这些API相关...
Toolformer 使用具有上下文学习的LLMs 从头生成整个数据集:只要给出一些关于如何使用API的人工编写示例,我们就让LM用潜在的API调用注释一个巨大的语言建模数据集。然后,我们使用自监督损失来确定哪些API调用实际上有助于模型预测未来的令牌。最后,我们根据它认为有用的API调用对LM本身进行调优。如图1所示,通过这种简单的...
该研究在 ToolBench(指令调优数据集)上对 LLaMA 进行微调,得到了 ToolLLaMA。ToolEval(自动评估器)评估显示,ToolLLaMA 展现出了出色的执行复杂指令和泛化到未知 API 的能力,并且在工具使用方面性能与 ChatGPT 相媲美。 论文地址:https:/...
该研究在 ToolBench(指令调优数据集)上对 LLaMA 进行微调,得到了 ToolLLaMA。ToolEval(自动评估器)评估显示,ToolLLaMA 展现出了出色的执行复杂指令和泛化到未知 API 的能力,并且在工具使用方面性能与 ChatGPT 相媲美。 论文地址:https://arxiv.org/pdf/2307.16789.pdf 项目地址:https://github.com/OpenBMB/ToolB...
项目地址:https://github.com/OpenBMB/ToolBench ToolLLaMA 效果展示如下: 方法介绍 论文首先介绍了 ToolBench,这是一个用于工具使用的指令调优数据集,由 ChatGPT 自动创建。具体而言,研究团队从 RapidAPI Hub 收集了 16464 个涵盖 49 个类别的真实世界 RESTful API,然后提示 ChatGPT 生成涉及这些 API 的多样化人...
项目地址:https://github.com/OpenBMB/ToolBench ToolLLaMA 效果展示如下: 方法介绍 论文首先介绍了 ToolBench,这是一个用于工具使用的指令调优数据集,由 ChatGPT 自动创建。具体而言,研究团队从 RapidAPI Hub 收集了 16464 个涵盖 49 个类别的真实世界 RESTful API,然后提示 ChatGPT 生成涉及这些 API 的多样化人...
为了促进开源 LLM 中的工具使用能力,我们引入了 ToolLLM,这是一个数据构建、模型训练和评估的通用工具使用框架。 目标是让LLM能够掌握数千个不同的现实世界 API: 我们通过收集高质量的指令调整数据集来实现这一目标。它是使用最新的ChatGPT(gpt-3.5-turbo-16k)自动构建的,并通过增强的函数调用能力进行了升级。
作者首先收集高质量的工具学习指令微调数据集ToolBench,随后对LLaMA进行微调得到ToolLLaMA,最后通过ToolEval评估ToolLLaMA的工具使用能力。 RapidAPI层次架构和工具指令生成示意图 为了兼顾生成高质量的指令和保证指令能用 API 完成,作者采用自底向上的方法进行工具指令生成,即从收集的 API 入手,反向构造涵盖各种 API 的指...
在数据集方面。如图 1 所示,研究者首先收集了一些高质量的指令调优数据集 ToolBench。该数据集是通过使用最新的 ChatGPT(gpt-3.5-turbo-16k)自动构建的。 具体而言,ToolBench 的构建包含三个阶段:API 收集(API collection)、指令生成、解路径注释(solution path annotation)。
ToolLLM数据收集、模型训练、性能评测流程 ToolBench数据集 ToolBench 的构建完全由最新的 ChatGPT(gpt-3.5-turbo-16k)自动化完成,无需人工标注。在 ToolBench 上训练出来的模型具备极强的泛化能力,能够直接被应用到新的 API 上,无须额外训练。下表列出了 ToolBench 与之前相关工作的对比情况。ToolBench 不仅...