#LV-Eval为不同长度等级“统一命题”:同一数据集在不同长度等级下具有相同的问答对集合,只是构成各长度等级的上下文长度不同。我们的目的是保持问答对一致的情况下,充分测试模型在不同长度等级上下文中的性能表现,更可控地评估模型的长文本能力。 LV-Eval,不只是“更长的跑道”旧的基准还有还有其他问题,如数据集...
从公共数据集找了一些QA和对应的context。然后把这些context插入到很长的document中(Haystack)中。 创新之处在于同时针对supporting context生成了多个confusing fact,然后把他们也同时插到Haystack中去。这样认为能更加challenging。 这里生成conflicting facts的时候有一步“resolve conflicts”。比如原文是“Albert Einstein是...