为了充分利用大语言模型(Large Language Model,简写为 LLM)的语言理解能力,提高 Text2SQL 的模型微调效率和模型精度,在 DB-GPT 框架下提出了一个端到端大模型 Text2SQL 微调子框架 DB-GPT-Hub。在 DB-GPT 框架下,构架了 Text2SQL 领域下的数据预处理 - 模型微调 - 模型预测 - 模型验证 - 模型评估的...
text2sql榜单:https://github.com/eosphoros-ai/Awesome-Text2SQL 1.DB-GPT-Hub简介 Text-to-SQL(简写为 Text2SQL,或者 NL2SQL)是一项将自然语言描述转化为对应的结构化查询语句(Structured Query Language, 简写为 SQL)的技术,它能利用简洁清晰的自然语言描述,有效地辅助人们对海量的数据库进行查询,简化数据查...
DB-GPT 框架下提出了一个端到端大模型 Text2SQL 微调子框架 DB-GPT-Hub。在 DB-GPT 框架下,构架了 Text2SQL 领域下的数据预处理 - 模型微调 - 模型预测 - 模型验证 - 模型评估的全链路工作流程,如下图所示: DB-GPT-Hub 的架构流程图 代码库设计 数据集构建:将原始文本到SQL数据加工成适合微调LLM的格式...
在 DB-GPT 框架下,构架了 Text2SQL 领域下的数据预处理 - 模型微调 - 模型预测 - 模型验证 - 模型评估的全链路工作流程,如下图所示: 图1.DB-GPT-Hub 的架构流程图 如图一所示:DB-GPT-Hub 项目重点关注在数据预处理 - 数据集构建 - 模型微调 - 模型预测 - 模型验证部分,微调得到的模型可以无缝衔接部署...
DB-GPT-Hub是一个利用LLMs实现Text-to-SQL解析的实验项目,主要包含数据集收集、数据预处理、模型选择与构建和微调权重等步骤,通过这一系列的处理可以在提高Text-to-SQL能力的同时降低模型训练成本,让更多的开发者参与到Text-to-SQL的准确度提升工作当中,最终实现基于数据库的自动问答能力,让用户可以通过自然语言描述...
从源码安装 DB-GPT-NLU, cd src/dbgpt-hub-nlu pip install -e . 微调 # 假设后续使用 bge-large-zh-v1.5 作为基础模型 export base_model="/data/models/bge-large-zh-v1.5" python main.py \ --dataset financial_report \ --dataset_dir ./datasets \ --base_model_name_or_path $base_model ...
在dbgpt_hub/data/目录你会得到新生成的训练文件example_text2sql_train.json 和测试文件example_text2sql_dev.json ,数据量分别为8659和1034条。 对于后面微调时的数据使用在dbgpt_hub/data/dataset_info.json中将参数file_name值给为训练集的文件名,如example_text2sql_train.json。
DB-GPT-Hub通过微调来持续提升Text2SQL效果 DB-GPT-PluginsDB-GPT 插件仓库, 兼容Auto-GPT GPT-Vis可视化协议 dbgptsdbgpts 是官方提供的数据应用仓库, 包含数据智能应用, 智能体编排流程模版, 通用算子等构建在DB-GPT之上的资源。 安装 教程 特性一览 ...
DB-GPT-Hub:text2sql的微调框架及基准测试套件 text2sql任务是将自然语言问题转换为SQL查询。使用大模型来进行 sql 生成的方式也越来越常见。根据大模型用于文本到SQL生成的方式,text2sql可以分为两种场景:零样本/少样本提示和微调。 尽管少样本提示的大模型取得了显著进展,但仅依靠其参数知识和提示来准确处理高度...
图1.DB-GPT-Hub 的架构流程图 如图一所示:DB-GPT-Hub 项目重点关注在数据预处理 - 数据集构建 - 模型微调 - 模型预测 - 模型验证部分,微调得到的模型可以无缝衔接部署到 DB-GPT 框架中,然后结合知识问答和数据分析等能力展示模型在 Text2SQL 领域的优越性能。