然而,伴随模型的持续改进与优化,LLM 在这些基准测试中的表现已经逐步趋于稳定,这使得区分不同模型能力的差异变得越来越困难。为了更好地评估 LLM 的能力,滑铁卢大学、多伦多大学和卡内基梅隆大学的研究人员联合发布了 MMLU-Pro 数据集,整合了来自多个来源的问题,包括原始 MMLU 数据集、 STEM 网站、 TheoremQA 和 ...
性能稳定性:由于增加了选项,MMLU-Pro上的模型性能更加稳定。例如,与原始MMLU相比,Llama-2-7B在不同提示下的性能变化小于1%,而原始MMLU上则为4-5%。比如GPT-4o(71%)在MMLU-Pro上比GPT-4-turbo(62%)提高了9%,而在原始MMLU上的改进仅约为2%。 与更倾向于 PPL 评估的原始 MMLU 不同,MMLU-Pro 需要 CoT ...
1. MMLU-Pro 大规模多任务理解数据集 MMLU-Pro 数据集是一个更强大且更具挑战性的大规模多任务理解数据集,旨在更严格地对大型语言模型的功能进行基准测试。该数据集包含 12K 个跨学科的复杂问题。 直接使用:https://go.hyper.ai/PwJDW 2. DeepGlobe18 道路提取数据集 道路挑战赛的训练数据包含 6,226 张 RGB...
然而,伴随模型的持续改进与优化,LLM 在这些基准测试中的表现已经逐步趋于稳定,这使得区分不同模型能力的差异变得越来越困难。 为了更好地评估 LLM 的能力,滑铁卢大学、多伦多大学和卡内基梅隆大学的研究人员联合发布了 MMLU-Pro 数据集,整合了来自多个来源的问题,包括原始 MMLU 数据集、 STEM 网站、 TheoremQA 和 Sci...
MMLU-Pro 数据集是一个更强大且更具挑战性的大规模多任务理解数据集,旨在更严格地对大型语言模型的功能进行基准测试。该数据集包含 12K 个跨学科的复杂问题。该数据集由滑铁卢大学,多伦多大学,卡内基梅隆大学的研究人员于 2024 年发布,相关论文成果为「MMLU-Pro: A More Robust and Challenging Multi-Task Language...
原始MMLU数据集仅包含4个选项,MMLU-Pro将其增加到10个选项。选项的增加将使评估更具现实性和挑战性。随机猜测将导致更低的分数。 原始的MMLU数据集大多包含知识驱动的问题,没有太多推理问题。因此,PPL结果通常比CoT好。在MMLU-Pro数据集中,增加了问题难度,并整合了更多以推理为重点的问题。在MMLU-Pro中,CoT可以比...
因此作者创建了 MMLU-Pro,这是一个增强的数据集,旨在集成更具挑战性、以推理为主的问题,并将多项选择的选项从 4 个扩展到 10 个,以此来扩展广泛使用的 MMLU 基准。作者从 MMLU中删除了不重要问题和噪声问题。 实验表明,与 MMLU 相比,MMLU-Pro 进一步降低了不同模型的精度指标,还扩大了差距,各个模型的 MMLU...
1.MMLU-Pro 大规模多任务理解数据集 MMLU-Pro 数据集是一个更强大且更具挑战性的大规模多任务理解数据集,旨在更严格地对大型语言模型的功能进行基准测试。该数据集包含 12K 个跨学科的复杂问题。 道路挑战赛的训练数据包含 6,226 张 RGB 卫星图像,尺寸为 1024×1024。图像分辨率为 50 厘米像素,由 DigitalGlobe...
3、MMLU-Pro 更稳健,对不同提示的敏感度更低。 结果GPT-4o(71%)实际上比 GPT-4-turbo(62%)提高了 9%在原始 MMLU 上,改进只有 2% 左右。 但使用之后发现,有人反馈说MMLU-Pro以数学能力为主,但此前MMLU的价值在于知识和推理。 很多问题都需要多步骤的思维链CoT推理来解决应用数学问题。
通过MMLU-Pro,我们得以对各种开创性模型的准确度进行排名。结果显示,即使在去除了Chain of Thought(CoT)这一策略后,模型性能仍能保持稳定,显示出其在多任务处理和复杂问题解决上的强大能力。对于MMLU-Pro的具体数据集信息,可访问huggingface.co/datasets...以获取详细内容。这一进展不仅体现了大语言...