本文介绍了Karpukhin等人(2020)提出的用于端到端开放域问答(QA)的密集段落检索器(DPR)技术的可复制性研究。准确地说,我们在ACM1所阐述的意义上使用可复制性一词,其特点是 "不同的团队,不同的实验设置"。我们能够在独立开发的计算工具(即不同的实现)的基础上实现可比较的测量(即在不同测试集合上的有效性)。具...
我们的密集段落检索器(DPR)使用密集编码器EP(·),它将任何文本段落映射为d维实数向量,并为我们将用于检索的所有M个段落建立一个索引。在运行时,DPR应用不同的编码器 E_{P}(\cdot) ,将输入的问题映射为d维向量,并检索其中向量与问题向量最接近的k段。我们用问题和段落的向量的点积来定义它们之间的相似性。
由于密集段落检索任务的目标是通过查询找到相关段落,因此本发明认为查询-段落相似性的关系对于Topic-DPR至关重要,而第二损失函数是对第三损失函数的辅助。 S530、根据不同主题之间的关系,确定第三损失函数。 主题-主题关系描述了两个或多个主题之间的关系。在某些上下文中,需要了解不同主题之间的相似性和差异性,尤其...