性能稳定性:由于增加了选项,MMLU-Pro上的模型性能更加稳定。例如,与原始MMLU相比,Llama-2-7B在不同提示下的性能变化小于1%,而原始MMLU上则为4-5%。比如GPT-4o(71%)在MMLU-Pro上比GPT-4-turbo(62%)提高了9%,而在原始MMLU上的改进仅约为2%。与更倾向于 PPL 评估的原始 MMLU 不同,MMLU-Pro 需要 CoT ...
为了更好地评估 LLM 的能力,滑铁卢大学、多伦多大学和卡内基梅隆大学的研究人员联合发布了 MMLU-Pro 数据集,整合了来自多个来源的问题,包括原始 MMLU 数据集、 STEM 网站、 TheoremQA 和 SciBench 等。该数据集现已在 hyper.ai 提供下载,下拉文章获取链接~9 月 9 日-9 月 14 日,hyper.ai 官网更新速览:...
如下图 Figure 5 所示,作者进一步在 MMLU 和 MMLU-Pro 上验证了不同 Prompt 对评估结果的影响,可以看出在 MMLU-Pro 上的评估差异更小,也证明其评估集更加鲁棒: 5.3 CoT 的影响 如下图 Table 3 所示,作者进一步在 MMLU 和 MMLU-Pro 上验证了直接问答以及使用 CoT 的差异,可以看出,在 MMLU-Pro 上使用 CoT...
然而,伴随模型的持续改进与优化,LLM 在这些基准测试中的表现已经逐步趋于稳定,这使得区分不同模型能力的差异变得越来越困难。 为了更好地评估 LLM 的能力,滑铁卢大学、多伦多大学和卡内基梅隆大学的研究人员联合发布了 MMLU-Pro 数据集,整合了来自多个来源的问题,包括原始 MMLU 数据集、 STEM 网站、 TheoremQA 和 Sci...
1. MMLU-Pro 大规模多任务理解数据集 MMLU-Pro 数据集是一个更强大且更具挑战性的大规模多任务理解数据集,旨在更严格地对大型语言模型的功能进行基准测试。该数据集包含 12K 个跨学科的复杂问题。 直接使用:https://go.hyper.ai/PwJDW 2. DeepGlobe18 道路提取数据集 ...
为了解决现有大型语言模型评估基准存在的缺陷,研究人员开发了更具挑战性和区分度的MMLU-Pro基准,通过纳入更多推理密集型任务、增加干扰选项数量和采用严格的专家审查流程,从而更有效地评估模型在多任务语言理解和推理方面的能力。 论文介绍 大型语言模型 (LLMs) 的最新进展极大地改变了自然语言处理(NLP) 领域,但它们在...
MMLU-Pro 数据集是一个更强大且更具挑战性的大规模多任务理解数据集,旨在更严格地对大型语言模型的功能进行基准测试。该数据集包含 12K 个跨学科的复杂问题。该数据集由滑铁卢大学,多伦多大学,卡内基梅隆大学的研究人员于 2024 年发布,相关论文成果为「MMLU-Pro: A More Robust and Challenging Multi-Task Language...
改善鲁棒性:MMLU-Pro在不同提示风格下的模型得分变化较小,从4%降低到2%,这表明模型在面对不同提示时更加稳定。这种稳定性有助于更好地区分模型的真实性能差异。增强区分度:通过设计更复杂的推理问题,MMLU-Pro能够更好地区分不同模型的性能差异,从而提供更准确的评估结果。覆盖更广泛的知识领域:MMLU-Pro包含...
🔍 探索未来AI的无限可能,我们期待着一个达到90分水平的领先模型。虽然这并不意味着AGI的实现,但MMLU-Pro数据集的推出无疑为AI研究提供了新的挑战。📚 MMLU-Pro数据集,一个更强大且更具挑战性的大规模多任务理解数据集,旨在更严格地对大型语言模型进行基准测试。它包含12,000个跨学科的复杂问题,并已完成最后...
MMLU(5-shot):DeepSeek-V3 在 MMLU 测试中取得了87.1% 的准确率,显著优于前代模型(如 DeepSeek-V2 的 78.4%),并接近闭源模型 GPT-4o(约 87.2%)和 Claude-3.5-Sonnet(88.3%)的水平。 MMLU-Pro(5-shot):在更复杂的 MMLU-Pro 测试中,其准确率为75.9%,高于 Meta 的 Llama 3.1 405B(73.3%)和 Qwen...