论文地址:Next-Generation Database Interfaces: A Survey of LLM-based Text-to-SQL 从自然语言问题(文本到SQL)生成准确的SQL是一个长期以来的挑战,因为用户问题理解、数据库模式理解和SQL生成中的复杂性。传统的文本到SQL系统,包括人工工程和深度神经网络,已经取得了实质性进展。随后,预训练的语言模型(PLMs)已被开...
Text-to-SQL的目标是将自然语言问题自动转换成SQL查询,促进了智能数据库服务、自动数据分析和数据库问答等应用的发展。由于理解自然语言问题和生成正确SQL查询的难度,Text-to-SQL仍然是一个充满挑战的任务。最初的研究集中于用预定义规则、查询枚举或将其视为序列到序列任务来解决Text-to-SQL任务。随着深度学习的迅速...
该研究主要面向真实数据库的 Text-to-SQL 评估,过去流行的测试基准,比如 Spider 和 WikiSQL,仅关注具有少量数据库内容的数据库 schema,导致学术研究与实际应用之间存在鸿沟。BIRD 重点关注海量且真实的数据库内容、自然语言问题与数据库内容之间的外部知识推理以及在处理大型数据库时 SQL 的效率等新三个挑战。首先...
最近,阿里巴巴联合香港大学等机构推出了面向大规模真实数据库的全新基准 BIRD (Can LLM Already Serve as A Database Interface? A BIg Bench for Large-Scale Database Grounded Text-to-SQLs), 包含 95 个大规模数据库及高质量的 Text-SQL pair,数据存储量高达 33.4 GB。之前最优的模型在 BIRD 上评估仅达到...
Text-to-SQL任务,即将自然语言问题转化为SQL查询语句,是NLP领域的一个重要研究方向。DAIL-SQL作为Text-to-SQL任务的一个基准数据集,对于评估LLM在该任务上的性能具有重要意义。 一、DAIL-SQL数据集简介 DAIL-SQL是一个用于评估Text-to-SQL系统性能的大规模数据集。它包含了大量用户提出的问题和对应的SQL查询语句,...
最近,阿里巴巴联合香港大学等机构推出了面向大规模真实数据库的全新基准 BIRD (Can LLM Already Serve as A Database Interface? A BIg Bench for Large-Scale Database Grounded Text-to-SQLs), 包含 95 个大规模数据库及高质量的 Text-SQL pair,数据存储量高达 33.4 GB。之前最优的模型在 BIRD 上评估仅达到...
最近,阿里巴巴联合香港大学等机构推出了面向大规模真实数据库的全新基准 BIRD (Can LLM Already Serve as A Database Interface? A BIg Bench for Large-Scale Database Grounded Text-to-SQLs), 包含 95 个大规模数据库及高质量的 Text-SQL pair,数据存储量高达 33.4 GB。之前最优的模型在 BIRD 上评估仅达到...
Text-to-SQL任务的目标是将自然语言问题自动转换成SQL查询,这在智能数据库服务、自动数据分析和数据库问答等领域具有重要作用。然而,理解自然语言问题和生成正确SQL查询的难度使得Text-to-SQL任务成为一个挑战。最初的研究集中于用预定义规则、查询枚举或将其视为序列到序列任务来解决Text-to-SQL任务。随...
在学术界,过去的 text-to-SQL 基准仅关注小规模数据库,最先进的 LLM 已经可以达到 85.3% 的执行准确率,但这是否意味着 LLM 已经可以作为数据库的自然语言接口? 新一代数据集 最近,阿里巴巴联合香港大学等机构推出了面向大规模真实数据库的全新基准 BIRD (CanLLM Already Serve as A Database Interface? A BIg...
【DB-GPT-Hub: 利用LLMs实现Text-to-SQL解析的实验项目,主要包含数据集收集、数据预处理、模型选择与构建和微调权重等步骤,通过这一系列的处理可以在提高Text-to-SQL能力的同时降低模型训练成本,让更多的开发者参与到Text-to-SQL的准确度提升工作当中,最终实现基于数据库的自动问答能力,让用户可以通过自然语言描述完...