大多数现在主流的Text-to-SQL数据集对应的数据库的规模都不够大,和真实世界的实际情况还存在一定的差距。为了弥合学术和真实应用之间的裂缝,所以本文提出了Bird数据集(一个由大规模数据库为基础的数据集)。此数据集包含了12751个text-to-SQL对,95个数据库(横跨37个专业领域),大小为33.4GB。注:95个数据库中有15...
NL2SQL基础系列(1):业界顶尖排行榜、权威测评数据集及LLM大模型(Spider vs BIRD)全面对比优劣分析[Text2SQL、Text2DSL]Text-to-SQL(或者Text2SQL),顾名思义就是把文本转化为SQL语言,更学术一点的定义是:把…
更让人头疼的是,各方对Text2SQL的未来发展方向产生了分歧,有的认为应该继续扩大数据集,有的则认为应该专注于提高模型的理解能力,还有的认为应该先解决实际应用中遇到的问题。一时间,Text2SQL的前景似乎又蒙上了一层阴影。Text2SQL这技术吧,吹得天花乱坠,好像人人都能当数据库专家了。但实际情况呢?呵呵,还...
1.3.2 NL2SQL数据集 本小节列举NL2SQL中经常用到的几个中英文数据集。 1.英文数据集 当前Text-to-SQL数据集以英文数据集居多,根据是否跨领域、是否跨表以及是否为多轮等特征进行划分,结果如表1-6所示。 表1-6 NL2SQL中代表性的英文数据集 其中WikiSQL和Spider是研究比较多的单轮数据集,WikiSQL数据集包含80...
现有Text2SQL数据集List: 1.WikiSQL WikiSQL 标注数据集适合入门数据集 WikiSQL是一个大型的语义解析数据集,由80,654个自然语句表述和24,241张表格的sql标注构成。 WikiSQL中每一个问句的查询范围仅限于同一张表,不包含排序、分组、子查询等复杂操作。 虽然数据规模大,SQL语法却非常简单;适合做NL2SQL任务入门。
浪潮云取得一种NL2SQL数据集构建方法专利 金融界2024年9月28日消息,国家知识产权局信息显示,浪潮云信息技术股份公司取得一项名为“一种NL2SQL数据集构建方法、装置、设备及介质”的专利,授权公告号 CN 118503270 B,申请日期为2024年7月。本文源自:金融界 作者:情报员 ...
二、NL2SQL数据集 研究任何一个机器学习算法问题都需要该领域的数据集,在此我们列举了NL2SQL中经常使用到的几个数据集。根据数据集中SQL涉及到的数据库表的个数不同,分为单表和多表;根据所生成的SQL结构中是否含有嵌套查询,将数据集分类为有嵌套和无嵌套。1. 单表无嵌套数据集 ATIS&GeoQuery数据集:ATIS来源于...
天池实验室 数据集 正文 匿名 新建Notebook 内容 Notebook 评论 描述 数据列表 数据名称上传日期大小下载 文档 目录
首届中文NL2SQL挑战赛 ,tar.gz文件
【综述】NL2SQL (一) 简介及数据集 目录 简介 1. WikiSQL 2. Spider 3. WikiTableQuestions 4. ATIS 5. 首届中文NL2SQL挑战赛数据集 下载地址 简介 NL2SQL(Natural Language to SQL)是一项将用户的自然语句转为可执行 SQL 语句的技术,对改善用户与数据库之间的交互方式有很大意义。NL2SQL 的本质,是将用户...