图5:每个模型在所有受试者合并(左上)以及在论文的MMLU-Redux数据中错误最多的七个受试者中的精确匹配(EM)。原始EM表示在所有实例上测量的性能,无论错误存在与否,而OK和Erroneous EM反映了在正确实例和错误实例上的结果 表1:使用MMLU-Redux的总体实例与正确实例时,模型性能和排名变化的比较,针对五个错误最多的主...
mmlu-redux-2-em-error-type-All-top7-models_v2.pdf mmlu-redux-2-em_concat_all_subjects_EM_per_error.csv mmlu_multi_experts_abstract_algebra_performance.png mmlu_multi_experts_all_performance.png mmlu_multi_experts_anatomy_performance.png mmlu_multi_experts_astronomy_performance.png mmlu...
论文提出MMLU-Redux,一个手动标注的MMLU子集,以量化原始数据集中的错误。MMLU-Redux主要有两个目的:1...
无论错误存在与否,而OK和Erroneous EM反映了在正确实例和错误实例上的结果表1:使用MMLU-Redux的总体实...
MMLU,即“Massive Multitask Language Understanding”,是一个大规模的多任务语言理解测试,简单的说,它...