其中对于传统的检索应用,LLM-as-a-judge 通过判断文档和用户请求的相关性来选择最符合用户喜好的一组文档。另外,LLM-as-a-judge 还被应用于检索增强生成(RAG)的过程中,通过 LLM 自己来选择对后续生成最有帮助的辅助文档。
因此,LLM-as-a-judge 未来工作的一个方向是研究如何揭露和改善这些偏见,并提升系统面对攻击的鲁棒性。 (2)更动态,复杂的评判:早期的 LLM-as-a-judge 通常只采用比较简单的指令来 prompt 大模型。随着技术的发展,越来越多复杂且动态的 LLM-as-a-judge 框架被开发出来,例如多智能体判断和 LLM-as-a-examiner。
因此,LLM-as-a-judge 被广泛引入到模型评估的场景中,进行开放式生成,推理过程以及各种新兴 NLP 任务的评测。 (2)对齐:对齐技术通常需要大量人工标注的成对偏好数据来训练奖励或者策略模型,通过引入 LLM-as-a-judge 技术,采用更大的模型或者策略模型本身作为评估者,这一标注过程的时间和人力成本被大大优化。 (3)...
LLM--as--a--Judge 利用大型语言模型从候选答案中选择给定问题的最佳回答,有多种应用场景。JudgeDeceiver 是一种基于优化的提示注入攻击,将精心设计的序列注入攻击者控制的候选回答中,使 LLM--as--a--Judge 无论其他候选回答如何,都选择该候选回答。作者将==寻找这样的序列==作为优化问题,并提出基于梯度的方法近...
更动态,复杂的评判:早期的 LLM-as-a-judge 通常只采用比较简单的指令来 prompt 大模型。随着技术的发展,越来越多复杂且动态的 LLM-as-a-judge 框架被开发出来,例如多智能体判断和 LLM-as-a-examiner。在未来,一个有前景的研究方向是开发具有人类评判思维的大模型智能体;另外,开发一个基于大模型自适应难度的评...
不过在实际应用中,大多数人并不需要完全可复现且高质量无偏的评估,快速且略显粗糙的 prompt 就能满足需求。(只要知悉使用后果,这种情况也是能接受的)。英文原文:https://raw.githubusercontent.com/huggingface/evaluation-guidebook/refs/heads/main/translations/zh/contents/model-as-a-judge/designing-your-...
不过在实际应用中,大多数人并不需要完全可复现且高质量无偏的评估,快速且略显粗糙的 prompt 就能满足需求。(只要知悉使用后果,这种情况也是能接受的)。 英文原文:https://raw.githubusercontent.com/huggingface/evaluation-guidebook/refs/heads/main/translations/zh/contents/model-as-a-judge/designing-your-evaluatio...
Core question: How can reliable LLM-as-a-Judge systems be built? Github:https://github.com/IDEA-FinAI/LLM-as-Evaluator 策略: improving consistency mitigating biases adapting to diverse assessment scenarios 有些段落写作质量差,有些很好 1. intro ...
来自国际数字经济学院、中国科学院计算技术研究所、伦敦帝国理工学院、中国人民大学高瓴人工智能学院的研究者近期发布了一篇关于LLM-as-a-Judge的综述,引用146篇论文从应用现状、评估方法到核心提升策略做了非常全面的研究。 研究者用康德的《判断力批判》和《纯粹理性批判》开篇,它阐述了判断力(Judgment)在认识过程中的...
实验利用三个基于GPT4-as-a-Judge的自动评估基准,包括AlpacaEval 2、Arena-Hard和MT-Bench,分别侧重于模型的不同方面。例如,AlpacaEval主要关注聊天场景,提示集涵盖了各种日常问题。相比之下,Arena-Hard包含更复杂或更具挑战性的问题,要在预定义的7个方面(创造力、复杂性、问题解决能力等)满足更多的标准。MT...