在前文《大模型系列:LLM-Eval大模型评测理论简述》中介绍了大模型需要评测的内容,包括NLP任务、知识和逻辑推理、安全性、对齐性等多个角度,C-Eval数据集主要用于评测大模型的知识和逻辑推理能力,即大模型是否能够认识和理解广泛的世界知识,并类似人类一样对事物进行推理规划。
在前文《大模型系列:LLM-Eval大模型评测理论简述》中介绍了大模型需要评测的内容,包括NLP任务、知识和逻辑推理、安全性、对齐性等多个角度,C-Eval数据集主要用于评测大模型的知识和逻辑推理能力,即大模型是否能够认识和理解广泛的世界知识,并类似人类一样对事物进行推理规划。 C-Eval数据集由13948道多选题组成,涉及4...
C-Eval还附带有C-Eval HARD,这是C-Eval中非常具有挑战性的一部分主题(子集),是从C-Eval中选择的8个具有挑战性的数学、物理和化学科目,需要高级推理能力才能解决,具体包括高等数学、离散数学、概率和统计、大学化学、大学物理、高中数学、高中化学和高中物理。这些科目通常涉及复杂的LATEX方程,需要推理能力来解决...
2.C-Eval是评测基准,但不仅是评测与打榜 不同颜色的主体表示四个难度等级:初中、高中、大学和专业。 根据C-Eval的官网信息,C-Eval由上海交通大学,清华大学,爱丁堡大学共同完成,是构造了一个覆盖人文,社科,理工,其他专业四个大方向,52 个学科(微积分,线代 …),从中学到大学研究生以及职业考试,一共 13948 道题...
中文评测基准: CLUE基准(Xu等人,2020)是第一个大规模的中文NLU基准,现在仍然是使用最广泛和最好的中文基准。 AGIEval基准(Zhong等人,2023)包含了来自中国高考、中国律师资格考试和中国公务员考试的数据。 MMCU基准(Zeng,2023)包括来自医学、法律、心理学和教育等四大领域的测试,这些数据也是从中国高考、资格考试以及大...
C-Eval大模型评测榜单更新,国产手机厂商入围前五 中关村在线消息:在 C-Eval 官网刚刚更新的大模型评测榜中,国产手机品牌vivo跻身前五,同时vivo也是目前的手机品牌中排名最高的一位。C-Eval是由清华大学、上海交通大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集,包含13948道多项选择题,涵盖52个不...
10月16日,C-Eval大模型评测榜单更新,榜单显示,vivo自研大模型在C-Eval全球中文榜单中排名第一。此前,vivo自研大模型已取得了C-Eval百亿内大模型榜单第一,CMMLU全球中文榜单第一以及其百亿内大模型榜单第一的好成绩。vivo相关负责人透露,vivo自研AI大模型将会在即将发布的OriginOS 4系统中被首次应用,其中包括十亿...
近日,C-Eval大模型评测榜单更新,据榜单显示,vivo成功研发的自研大模型在全球中文榜单中位列第一,这一里程碑式的成就是对vivo在人工智能领域投入和创新的肯定。在OriginOS 4系统中,vivo的自研AI大模型将首次被应用,其中包括了三个不同参数量级的五款自研大模型,全面覆盖核心应用场景。一、C-Eval榜单与vivo的...