【新智元导读】近日,Google研究人员提出一个大型从表转换到文本的英文数据集,已经在Git上开源。该数据集不仅提供了一个可以受控的句子生成任务,还提供了一个基于迭代语句修订的数据注释过程。实验结果证明,ToTTo可以作为有用且高效的数据集,用来帮助其他研究者建模研究,以及开发可以更好地检测模型改进的评估指标。在...
在《ToTTo:一个受控的表到文本生成数据集》(ToTTo: A Controlled Table-to-Text Generation Dataset)中,研究人员提出了一个开放域的表到文本生成数据集。 该数据集是由一种新的注释过程(通过句子修改)以及一个可用于评估模型「幻觉」的受控文本生成任务生成的。 在接下来的介绍中,我们将「表到文本」称为ToTTo。
在“ ToTTo: A Controlled Table-To-Text Generation Dataset ”中,我们展示了一个开放域表到文本生成数据集,该数据集使用一种新颖的注释过程(通过句子修订)以及一个受控文本生成任务来创建,该任务可用于评估模型幻觉。ToTTo(“Table-To-Text”的简写)包含 121,000 个训练示例,以及每个用于开发和测试的 7,500 个...
在《ToTTo:一个受控的表到文本生成数据集》(ToTTo: A Controlled Table-to-Text Generation Dataset)中,研究人员提出了一个开放域的表到文本生成数据集。 该数据集是由一种新的注释过程(通过句子修改)以及一个可用于评估模型「幻觉」的受控文本生成任务生成的。 在接下来的介绍中,我们将「表到文本」称为ToTTo。
ToTTo数据集使用了一种特别的数据标注方法,以产生没有杂讯的数据集,Google提到,要从表格数据中,获得自然又乾净的目标句子,是一件困难的工作,诸如Wikibio和RotoWire之类的数据集,其配对表格和文字的过程,总会出现许多杂讯,而这让研究人员难以区分,究竟幻觉是由数据杂讯造成的,还是模型本身缺陷造成的。而且即便...
totto_datasets.zip2021-02-27179.03MB 文档 ToTTo:an open-domain English table-to-text dataset开源英文表格到文本数据集ToTTo1.OverviewToTTo is an open-domain English table-to-text dataset with over 120,000 training examples that proposes a controlled generation task: given a Wikipedia table and a ...
在《ToTTo:一个受控的表到文本生成数据集》(ToTTo: A Controlled Table-to-Text Generation Dataset)中,研究人员提出了一个开放域的表到文本生成数据集。 该数据集是由一种新的注释过程(通过句子修改)以及一个可用于评估模型「幻觉」的受控文本生成任务生成的。
在“ToTTo:受控的表到文本生成数据集” (ToTTo: A Controlled Table-to-Text Generation Dataset) 一文中,我们提出了一个开放域表到文本生成数据集,并使用全新的注释处理方式(通过句子修订)以及一个用于评估模型幻觉的受控文本生成任务构建该数据集。 ToTTo:受控的表到文本生成数据集 https://arxiv.org/abs/2004.14...
【新智元导读】近日,Google研究人员提出一个大型从表转换到文本的英文数据集,已经在Git上开源。该数据集不仅提供了一个可以受控的句子生成任务,还提供了一个基于迭代语句修订的数据注释过程。实验结果证明,ToTTo可以作为有用且高效的数据集,用来帮助其他研究者建模研究,以及开发可以更好地检测模型改进的评估指标。
在“ ToTTo: A Controlled Table-To-Text Generation Dataset ”中,我们展示了一个开放域表到文本生成数据集,该数据集使用一种新颖的注释过程(通过句子修订)以及一个受控文本生成任务来创建,该任务可用于评估模型幻觉。ToTTo(“Table-To-Text”的简写)包含 121,000 个训练示例,以及每个用于开发和测试的 7,500 个...