使用LLaMA 作为基座模型:在我们另一个相关的英文模型评测项目 Chain-of-thought Hub 中,我们指出了 65B 的 LLaMA 模型是一个稍弱于 GPT-3.5 的基础模型,它有着很大的潜力,如果把它用中文的数据训练,其强大的英文能力可以自动迁移到中文。 但这样做的坏处,一来是研发能力的上限被 LLaMA 65B 锁死,不可能超过 G...
中文评测基准: CLUE基准(Xu等人,2020)是第一个大规模的中文NLU基准,现在仍然是使用最广泛和最好的中文基准。 AGIEval基准(Zhong等人,2023)包含了来自中国高考、中国律师资格考试和中国公务员考试的数据。 MMCU基准(Zeng,2023)包括来自医学、法律、心理学和教育等四大领域的测试,这些数据也是从中国高考、资格考试以及大...
在前文《大模型系列:LLM-Eval大模型评测理论简述》中介绍了大模型需要评测的内容,包括NLP任务、知识和逻辑推理、安全性、对齐性等多个角度,C-Eval数据集主要用于评测大模型的知识和逻辑推理能力,即大模型是否能够认识和理解广泛的世界知识,并类似人类一样对事物进行推理规划。 C-Eval数据集由13948道多选题组成,涉及4...
C-Eval中文大模型权威排名公布!C-Eval全球大模型综合性考试评测榜公布,全球排名前四的分别为清华智谱的ChatGLM2、OpenAI的GPT-4、商汤的SenseChat, APUS的AiLMe-100B v1。然而值得关注的是,在难题排行榜中,APUS位列全球榜首!C-Eval是由清华大学、上海交通大学和爱丁堡大学合作构建的面向中文语言模型的综合性...
C-Eval是由清华大学、上海交通大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集。它包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别,是全球最具影响力的中文评测集之一。C-Eval的题目难度和学科覆盖范围都非常广泛,能够全面评估中文大模型在不同领域和不同难度任务上的性能表现。C-Eval...
C-Eval是由清华大学、上海交通大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集,包含13948道多项选择题,涵盖52个不同学科和四个难度级别。在该评测中,APUS的AiLMe-100B v1平均分为65.2,在参与评测的大模型中排名第四。而在针对难题的评测中,AiLMe-100B v1得分为55.3分,位列第一名,险胜54.9分...
使用LLaMA 作为基座模型:在我们另一个相关的英文模型评测项目 Chain-of-thought Hub 中,我们指出了 65B 的 LLaMA 模型是一个稍弱于 GPT-3.5 的基础模型,它有着很大的潜力,如果把它用中文的数据训练,其强大的英文能力可以自动迁移到中文。 但这样做的坏处,一来是研发能力的上限被 LLaMA 65B 锁死,不可能超过 ...
中关村在线消息:在 C-Eval 官网刚刚更新的大模型评测榜中,国产手机品牌vivo跻身前五,同时vivo也是目前的手机品牌中排名最高的一位。C-Eval是由清华大学、上海交通大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集,包含13948道多项选择题,涵盖52个不同学科和四个难度级别,是目前较为权威的中文AI大...