提出SAFE评估方法:提出了一种名为Search-Augmented Factuality Evaluator (SAFE) 的方法,该方法利用语言模型将长篇幅回应分解为单个事实,并通过发送搜索查询到Google Search来评估每个事实的准确性。SAFE通过多步推理过程来确定事实是否得到搜索结果的支持。 引入F1@K度量标准:为了量化长篇幅回应的事实性,论文提出了扩展F1...
01谷歌DeepMind推出名为"搜索增强事实性评估器"(SAFE)的AI系统,用于评估大语言模型的长篇回答准确性。 02SAFE使用其他LLM将答案文本分解为单个叙述,然后使用RAG等方法确定准确性,实现同行评审。 03研究发现,SAFE在72.0%的单个事实上与人类一致,正确率超过人类20倍且成本更低。 04此外,SAFE在事实核验上的表现被誉为具...
这样一来,LongFact 就成为了衡量语言模型长篇事实性的一项坚实基础。 SAFE 研究者们提出了名为 SAFE 的创新评估方法,该方法利用语言模型自身及其与 Google 搜索引擎的交互,来自动评估模型所生成文本的每个知识点是否准确、相关,并能自圆其说。与传统的依赖人工评判或仅注重表面上的正确性的方式不同,SAFE 借助 Google...
他们直接比较每个事实的 SAFE 注释和人类注释,结果发现 SAFE 在 72.0% 的单独事实上与人类一致,如下图 4 所示。这表明 SAFE 在大多数单独事实上都达到了人类水平的表现。然后检查随机采访的 100 个单独事实的子集,其中 SAFE 的注释与人类评分者的注释不一致。 研究者手动重新注释每个事实(允许访问 Google 搜索,而...
总之,谷歌DeepMind与斯坦福大学研究人员推出的AI事实核查工具SAFE为解决聊天机器人“造谣”问题提供了有效的解决方案。它的推出将有助于提高人工智能系统的准确性和可信度,推动人工智能技术的健康发展。我们期待未来更多类似的技术创新能够不断涌现,为人类社会的进步和发展注入新的动力。
实验3:比较SAFE与人类注释者 内容:将SAFE的评估结果与人类注释者的结果进行比较,以量化SAFE的性能。 结果:在约16,000个独立事实的评估中,SAFE与人类注释者的一致性达到72%,在100个存在分歧的案例中,SAFE正确的概率为76%,表明SAFE在某些情况下甚至优于人类注释者。
SAFE:自动化长篇事实性评估方法 1. SAFE方法概述 SAFE(Search-Augmented Factuality Evaluator)是一种利用LLM代理自动评估长篇回答事实性的方法。它通过将长篇回答分解为独立的事实点,并使用多步骤推理过程(包括向Google搜索发送查询)来评估每个事实的准确性。此外,SAFE引入了扩展的F1分数作为聚合度量标准,平衡了回答中支持...
LongFact与SAFE的局限性 在本文中,我们提出了一种新的长篇事实性评估方法SAFE,以及一个用于评估大型语言模型长篇事实性的新数据集LongFact。然而,这些工具和方法也存在一些局限性。首先,SAFE的性能依赖于所使用的大型语言模型的能力,尤其是模型的指令遵循和推理能力。如果模型无法准确地分解长篇回答中的个别事实,或者在...
具体来讲,他们利用了 LongFact-Objects 中 250 个提示组成的相同随机子集来评估每个模型,然后使用 SAFE 获取每个模型响应的原始评估指标,并利用 F1@K 指标进行聚合。 结果发现,一般而言,较大的语言模型可以实现更好的长篇事实性。如下图 6 和下表 2 所示,GPT-4-Turbo 优于 GPT-4,GPT-4 优于 GPT-3.5-Turb...
谷歌DeepMind 开发了 一个人工智能系统 SAFE,旨在对大型语言模型的结果进行事实检查。 在过去的几年里,像ChatGPT这样的LLM模型已经学会了撰写科学论文、回答问题,甚至解决数学问题。然而,此类系统的主要问题是准确性:每个模型结果都需要手动验证正确性,这大大降低了其价值。