mmlu+redux+em

2025-04-11 05:25:44

拼音 [ 拼音 ]

【LLM】我们是否已经完成了对MMLU的研究? - 知乎

图5:每个模型在所有受试者合并(左上)以及在论文的MMLU-Redux数据中错误最多的七个受试者中的精确匹配(EM)。原始EM表示在所有实例上测量的性能,无论错误存在与否,而OK和Erroneous EM反映了在正确实例和错误实例上的结果表1:使用MMLU-Redux的总体实例与正确实例时,模型性能和排名变化的比较,针对五个错误最多的主...
update · aryopg/mmlu-redux@4563cfa · GitHub

mmlu-redux-2-em-error-type-All-top7-models_v2.pdf mmlu-redux-2-em_concat_all_subjects_EM_per_error.csv mmlu_multi_experts_abstract_algebra_performance.png mmlu_multi_experts_all_performance.png mmlu_multi_experts_anatomy_performance.png mmlu_multi_experts_astronomy_performance.png mmlu...
MMLU是否有提升的空间? - 知乎

论文提出MMLU-Redux，一个手动标注的MMLU子集，以量化原始数据集中的错误。MMLU-Redux主要有两个目的：1...
MMLU是否有提升的空间? - 知乎

无论错误存在与否，而OK和Erroneous EM反映了在正确实例和错误实例上的结果表1：使用MMLU-Redux的总体实...
MMLU是否有提升的空间? - 知乎

MMLU，即“Massive Multitask Language Understanding”，是一个大规模的多任务语言理解测试，简单的说，它...