相当于中文版本的MMLU :一个覆盖人文,社科,理工,其他专业四个大方向,52 个学科(微积分,线代 …),从中学到大学研究生以及职业考试,一共 13948 道题目的中文知识和推理型测试集,我们管它叫 C-Eval,来帮助中文社区研发大模型。 8. GaoKao 是以中国高考题作为评测大语言模型能力的数据集,用以评估模型的语言能力和...