然而,伴随模型的持续改进与优化,LLM 在这些基准测试中的表现已经逐步趋于稳定,这使得区分不同模型能力的差异变得越来越困难。为了更好地评估 LLM 的能力,滑铁卢大学、多伦多大学和卡内基梅隆大学的研究人员联合发布了 MMLU-Pro 数据集,整合了来自多个来源的问题,包括原始 MMLU 数据集、 STEM 网站、 TheoremQA 和 ...
实验表明,与 MMLU 相比,MMLU-Pro 进一步降低了不同模型的精度指标,还扩大了差距,各个模型的 MMLU-Pro 精度指标相比 MMLU 下降 16%-33%;此外,也在不同的提示下表现出更高的稳定性。通过测试 24 中不同风格的 Prompt,模型分数对 Prompt 变化的敏感性从 MMLU 的 4%-5% 下降到 MMLU-Pro 的 2%。最后,作者发...
性能稳定性:由于增加了选项,MMLU-Pro上的模型性能更加稳定。例如,与原始MMLU相比,Llama-2-7B在不同提示下的性能变化小于1%,而原始MMLU上则为4-5%。比如GPT-4o(71%)在MMLU-Pro上比GPT-4-turbo(62%)提高了9%,而在原始MMLU上的改进仅约为2%。与更倾向于 PPL 评估的原始 MMLU 不同,MMLU-Pro 需要 CoT ...
1. MMLU-Pro 大规模多任务理解数据集 MMLU-Pro 数据集是一个更强大且更具挑战性的大规模多任务理解数据集,旨在更严格地对大型语言模型的功能进行基准测试。该数据集包含 12K 个跨学科的复杂问题。 直接使用:https://go.hyper.ai/PwJDW 2. DeepGlobe18 道路提取数据集 道路挑战赛的训练数据包含 6,226 张 RGB...
1. MMLU-Pro 大规模多任务理解数据集 MMLU-Pro 数据集是一个更强大且更具挑战性的大规模多任务理解数据集,旨在更严格地对大型语言模型的功能进行基准测试。该数据集包含 12K 个跨学科的复杂问题。 直接使用:https://go.hyper.ai/PwJDW 2. DeepGlobe18 道路提取数据集 ...
然而,伴随模型的持续改进与优化,LLM 在这些基准测试中的表现已经逐步趋于稳定,这使得区分不同模型能力的差异变得越来越困难。 为了更好地评估 LLM 的能力,滑铁卢大学、多伦多大学和卡内基梅隆大学的研究人员联合发布了 MMLU-Pro 数据集,整合了来自多个来源的问题,包括原始 MMLU 数据集、 STEM 网站、 TheoremQA 和 Sci...
为了解决现有大型语言模型评估基准存在的缺陷,研究人员开发了更具挑战性和区分度的MMLU-Pro基准,通过纳入更多推理密集型任务、增加干扰选项数量和采用严格的专家审查流程,从而更有效地评估模型在多任务语言理解和推理方面的能力。 论文介绍 大型语言模型 (LLMs) 的最新进展极大地改变了自然语言处理(NLP) 领域,但它们在...
MMLUPro包含12K个问题,全面覆盖学科知识。数据集从原始MMLU中挑选难题,并结合STEM网站、TheoremQA和SciBench等来源的问题,占比分别为56%和44%。设计旨在平衡难度与广度,确保测试的全面性和挑战性。评估效果:通过对比GPT4和GPT4turbo在MMLUPro上的表现,改进率达到了惊人的9%,显著高于原始MMLU上的2%...
MMLU-Pro 数据集是一个更强大且更具挑战性的大规模多任务理解数据集,旨在更严格地对大型语言模型的功能进行基准测试。该数据集包含 12K 个跨学科的复杂问题。该数据集由滑铁卢大学,多伦多大学,卡内基梅隆大学的研究人员于 2024 年发布,相关论文成果为「MMLU-Pro: A More Robust and Challenging Multi-Task Language...
🔍 探索未来AI的无限可能,我们期待着一个达到90分水平的领先模型。虽然这并不意味着AGI的实现,但MMLU-Pro数据集的推出无疑为AI研究提供了新的挑战。📚 MMLU-Pro数据集,一个更强大且更具挑战性的大规模多任务理解数据集,旨在更严格地对大型语言模型进行基准测试。它包含12,000个跨学科的复杂问题,并已完成最后...