原始MMLU数据集仅包含4个选项,MMLU-Pro将其增加到10个选项。选项的增加将使评估更具现实性和挑战性。随机猜测将导致更低的分数。 原始的MMLU数据集大多包含知识驱动的问题,没有太多推理问题。因此,PPL结果通常比CoT好。在MMLU-Pro数据集中,增加了问题难度,并整合了更多以推理为重点的问题。在MMLU-Pro中,CoT可以比...
原始MMLU 数据集主要包含知识驱动的问题,不需要太多推理。因此,PPL 结果通常比 CoT 更好。在 MMLU-Pro 中增加了问题难度并集成了更多以推理为重点的问题,CoT 可以比 PPL 高 20% 。 通过增加干扰项数量,MMLU-Pro 显著降低了偶然猜对的概率,从而提高了基准的稳健性。具体来说,在测试了 24 种不同的提示风格后...
如下图 Figure 5 所示,作者进一步在 MMLU 和 MMLU-Pro 上验证了不同 Prompt 对评估结果的影响,可以看出在 MMLU-Pro 上的评估差异更小,也证明其评估集更加鲁棒: 5.3 CoT 的影响 如下图 Table 3 所示,作者进一步在 MMLU 和 MMLU-Pro 上验证了直接问答以及使用 CoT 的差异,可以看出,在 MMLU-Pro 上使用 CoT...
性能稳定性:由于增加了选项,MMLU-Pro上的模型性能更加稳定。例如,与原始MMLU相比,Llama-2-7B在不同提示下的性能变化小于1%,而原始MMLU上则为4-5%。比如GPT-4o(71%)在MMLU-Pro上比GPT-4-turbo(62%)提高了9%,而在原始MMLU上的改进仅约为2%。 与更倾向于 PPL 评估的原始 MMLU 不同,MMLU-Pro 需要 CoT ...
3、MMLU-Pro 更稳健,对不同提示的敏感度更低。 结果GPT-4o(71%)实际上比 GPT-4-turbo(62%)提高了 9%在原始 MMLU 上,改进只有 2% 左右。 但使用之后发现,有人反馈说MMLU-Pro以数学能力为主,但此前MMLU的价值在于知识和推理。 很多问题都需要多步骤的思维链CoT推理来解决应用数学问题。
实验结果表明,与 MMLU 相比,MMLU-Pro 不仅提高了挑战性,使准确率大幅下降了 16% 至 33%,而且在不同提示下表现出更高的稳定性。在 24 种不同提示风格的测试中,模型得分对提示变化的敏感度从 MMLU 的 4-5% 下降到 MMLU-Pro 的 2%。此外,他们还发现,在 MMLU-Pro 中,与直接回答相比,利用思维链(CoT)推理...
MMLU-Pro的数据集设计旨在全面覆盖学科知识,包括从原始MMLU中挑选的难题、STEM网站、TheoremQA和SciBench等来源的问题,占比分别为56%和44%。数据集旨在平衡难度与广度,确保测试的全面性和挑战性。通过MMLU-Pro,我们得以对各种开创性模型的准确度进行排名。结果显示,即使在去除了Chain of Thought(CoT)...
variations decreased from 4-5% in MMLU to just 2% in MMLU-Pro. Additionally, we found that models utilizing Chain of Thought (CoT) reasoning achieved better performance on MMLU-Pro compared to direct answering, which is in stark contrast to the findings on the original MMLU, indicating that ...
(1) TIGER-Lab/MMLU-Pro · Datasets at Hugging Face. https://huggingface.co/datasets/TIGER-Lab/MMLU-Pro. (2) MMLU-Pro: A More Robust and Challenging Multi-Task Language ... https://arxiv.org/abs/2406.01574. (3) MMLU-Pro: An Upgraded Version of the MMLU Dataset | LLM Explorer Blog...
The scripts for MMLU-Pro. Contribute to TIGER-AI-Lab/MMLU-Pro development by creating an account on GitHub.