Unlike the original MMLU, which favors PPL evaluation. MMLU-Pro requires CoT reasoning to achieve better results.ModelsPromptingOverallBiologyBusinessChemistryComputerScienceEconomicsEngineeringHealthHistoryLawMathPhilosophyPhysicsPsychologyOther GPT-4o CoT 0.7255 0.8675 0.7858 0.7393 0.7829 0.808 0.55 0.7212 ...
为了更好地评估 LLM 的能力,滑铁卢大学、多伦多大学和卡内基梅隆大学的研究人员联合发布了 MMLU-Pro 数据集,整合了来自多个来源的问题,包括原始 MMLU 数据集、 STEM 网站、 TheoremQA 和 SciBench 等。该数据集现已在 hyper.ai 提供下载,下拉文章获取链接~9 月 9 日-9 月 14 日,hyper.ai 官网更新速览:...
MMLU-Pro 数据集是一个更强大且更具挑战性的大规模多任务理解数据集,旨在更严格地对大型语言模型的功能进行基准测试。该数据集包含 12K 个跨学科的复杂问题。 直接使用:go.hyper.ai/PwJDW 2. DeepGlobe18 道路提取数据集 道路挑战赛的训练数据包含 6,226 张 RGB 卫星图像,尺寸为 1024×1024。图像分辨率为 50...
* 在线使用数据集教程:【OpenBayes 官方教程】公共资源介绍数据集简介MMLU-Pro 数据集是一个更强大且更具挑战性的大规模多任务理解数据集,旨在更严格地对大型语言模型的功能进行基准测试。该数据集包含 12K 个跨学科的复杂问题。该数据集由滑铁卢大学,多伦多大学,卡内基梅隆大学的研究人员于 2024 年发布,相关论文成果...
6. LAV-DF 多模态 DeepFake 音频视觉数据集 LAV-DF 是一个多模态(视频篡改和音频篡改)数据集,源自 VoxCeleb2 数据集,包含 136,304 段视频,其中 36,431 段真实视频,99,873 段伪造视频。 直接使用:https://go.hyper.ai/ujock 7. Vibrent Clothes Rental Dataset 服装租赁数据集 该数据集包含 64k 笔交易、...
MMLU-Pro 数据集是一个更强大且更具挑战性的大规模多任务理解数据集,旨在更严格地对大型语言模型的功能进行基准测试。该数据集包含 12K 个跨学科的复杂问题。 直接使用:https://go.hyper.ai/PwJDW 2. DeepGlobe18 道路提取数据集 道路挑战赛的训练数据包含 6,226 张 RGB 卫星图像,尺寸为 1024×1024 。图像分...
MMLU-Pro 数据集的收集过程如下图 Figure 2 所示,主要包含如下几个步骤: 3.2.1 Initial Filtering 原始的 MMLU 数据集包含 57 个主题,作者将其合并到 14 个。然后使用 8 个小模型来评估(LLaMA2-7B、LLaMA2-7B-Chat、LLaMA2-13B、LLaMA2-13B-Chat、Mistral-7B、Gemma-7B、Yi-6B 和 Yi-6B-Chat),如果超...
这不就有了MMLU-Pro,这是一个更强大、更具挑战性的大规模多任务语言理解基准,有12K个问题。 MMLU的设计关键点 原始MMLU数据集仅包含4个选项,MMLU-Pro将其增加到10个选项。选项的增加将使评估更具现实性和挑战性。随机猜测将导致更低的分数。 原始的MMLU数据集大多包含知识驱动的问题,没有太多推理问题。因此,PP...
MMLUPro包含12K个问题,全面覆盖学科知识。数据集从原始MMLU中挑选难题,并结合STEM网站、TheoremQA和SciBench等来源的问题,占比分别为56%和44%。设计旨在平衡难度与广度,确保测试的全面性和挑战性。评估效果:通过对比GPT4和GPT4turbo在MMLUPro上的表现,改进率达到了惊人的9%,显著高于原始MMLU上的2%...
1. MMLU-Pro 大规模多任务理解数据集 MMLU-Pro 数据集是一个更强大且更具挑战性的大规模多任务理解数据集,旨在更严格地对大型语言模型的功能进行基准测试。该数据集包含 12K 个跨学科的复杂问题。 直接使用:https://go.hyper.ai/PwJDW 2. DeepGlobe18 道路提取数据集 ...