MMLU-Pro 数据集是一个更强大且更具挑战性的大规模多任务理解数据集,旨在更严格地对大型语言模型的功能进行基准测试。该数据集包含 12K 个跨学科的复杂问题。该数据集由滑铁卢大学,多伦多大学,卡内基梅隆大学的研究人员于 2024 年发布,相关论文成果为「MMLU-Pro: A More Robust and Challenging Multi-Task Language...
为了更好地评估 LLM 的能力,滑铁卢大学、多伦多大学和卡内基梅隆大学的研究人员联合发布了 MMLU-Pro 数据集,整合了来自多个来源的问题,包括原始 MMLU 数据集、 STEM 网站、 TheoremQA 和 SciBench 等。该数据集现已在 hyper.ai 提供下载,下拉文章获取链接~9 月 9 日-9 月 14 日,hyper.ai 官网更新速览:...
原始的MMLU数据集大多包含知识驱动的问题,没有太多推理问题。因此,PPL结果通常比CoT好。在MMLU-Pro数据集中,增加了问题难度,并整合了更多以推理为重点的问题。在MMLU-Pro中,CoT可以比PPL高20%。 MMLU-Pro通过在不同学科中添加更多大学水平的问题,显著提高了复杂性水平。 MMLU-Pro也更强大,对不同的提示更不敏感。
在此背景下,MMLU-Pro应运而生,作为更高级、更具挑战性的基准,包含12K个问题。通过对比GPT-4o和GPT-4-turbo在MMLU-Pro上的表现,我们发现改进率达到了惊人的9%,显著高于原始MMLU上的2%。这一结果表明MMLU-Pro成功地提升了评估的精准度。MMLU-Pro的数据集设计旨在全面覆盖学科知识,包括从原始MMLU...
来自滑铁卢大学、多伦多大学和卡内基梅隆大学提出了一个增强型数据集——MMLU-Pro,旨在通过整合更具挑战性、以推理为重点的问题,并将选择集从四个选项扩展到十个选项,从而扩展主要由知识驱动的 MMLU 基准。此外,MMLU-Pro 还剔除了 MMLU 中琐碎和嘈杂的问题。实验结果表明,与 MMLU 相比,MMLU-Pro 不仅提高了挑战性,...
Gemini在专业知识储备和高级编码 | 多模态能力之外,Gemini在专业知识储备和高级编码等领域都处在最前列。比如,Gemini Ultra在MMLU(大规模多任务语言理解数据集)中的得分率高达90.0%,这款MMLU数据集包含数学、物理、历史、法律、医学和伦理等57个科目,专门用于测试大模型的知识储备和解决问题能力。Gemini Ultra是第一个...
MMLU-Pro 数据集是一个更强大且更具挑战性的大规模多任务理解数据集,旨在更严格地对大型语言模型的功能进行基准测试。该数据集包含 12K 个跨学科的复杂问题。 道路挑战赛的训练数据包含 6,226 张 RGB 卫星图像,尺寸为 1024×1024。图像分辨率为 50 厘米像素,由 DigitalGlobe 的卫星收集。
MMLU-Pro 数据集是一个更强大且更具挑战性的大规模多任务理解数据集,旨在更严格地对大型语言模型的功能进行基准测试。该数据集包含 12K 个跨学科的复杂问题。 道路挑战赛的训练数据包含 6,226 张 RGB 卫星图像,尺寸为 1024×1024。图像分辨率为 50 厘米像素,由 DigitalGlobe 的卫星收集。
1. MMLU-Pro 大规模多任务理解数据集 MMLU-Pro 数据集是一个更强大且更具挑战性的大规模多任务理解数据集,旨在更严格地对大型语言模型的功能进行基准测试。该数据集包含 12K 个跨学科的复杂问题。 直接使用:https://go.hyper.ai/PwJDW 2. DeepGlobe18 道路提取数据集 ...
1. MMLU-Pro 大规模多任务理解数据集 MMLU-Pro 数据集是一个更强大且更具挑战性的大规模多任务理解数据集,旨在更严格地对大型语言模型的功能进行基准测试。该数据集包含 12K 个跨学科的复杂问题。 直接使用:https://go.hyper.ai/PwJDW 2. DeepGlobe18 道路提取数据集 ...