C-Eval认为,一个模型要强,首先需要广泛的知识,然后在知识的基础上做推理,这样才能代表一个模型可以做复杂且困难的事情。 2.2 C-Eval开发了不同难度的评测基准,HARD基准是中国第一个提供复杂推理问题的基准 与当前主流评测基准仅通过不同维度评测不同,C-Eval从知识型任务出发,通过不同数量集,将模型能力分类以进行准...
在前文《大模型系列:LLM-Eval大模型评测理论简述》中介绍了大模型需要评测的内容,包括NLP任务、知识和逻辑推理、安全性、对齐性等多个角度,C-Eval数据集主要用于评测大模型的知识和逻辑推理能力,即大模型是否能够认识和理解广泛的世界知识,并类似人类一样对事物进行推理规划。
在前文《大模型系列:LLM-Eval大模型评测理论简述》中介绍了大模型需要评测的内容,包括NLP任务、知识和逻辑推理、安全性、对齐性等多个角度,C-Eval数据集主要用于评测大模型的知识和逻辑推理能力,即大模型是否能够认识和理解广泛的世界知识,并类似人类一样对事物进行推理规划。 C-Eval数据集由13948道多选题组成,涉及4...
使用LLaMA 作为基座模型:在我们另一个相关的英文模型评测项目 Chain-of-thought Hub 中,我们指出了 65B 的 LLaMA 模型是一个稍弱于 GPT-3.5 的基础模型,它有着很大的潜力,如果把它用中文的数据训练,其强大的英文能力可以自动迁移到中文。 但这样做的坏处,一来是研发能力的上限被 LLaMA 65B 锁死,不可能超过 ...
1、针对自然语言理解能力的评测,如GLUE和SuperCLUE,主要考察模型对语言文字的基础理解;2、针对知识理解和记忆能力的评测,如C-Eval,旨在考察模型在高级知识任务上的推理能力;3、针对综合性能力评测,如HELM,重点在于评估模型在各种场景下的表现,包括其反应速度、言语控制和辨别虚假信息的能力。C-Eval 全称 A ...
C-Eval是由清华大学、上海交通大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集。它包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别,是全球最具影响力的中文评测集之一。C-Eval的题目难度和学科覆盖范围都非常广泛,能够全面评估中文大模型在不同领域和不同难度任务上的性能表现。C-Eval...
近日,山海大模型迎来新一轮迭代升级——在性能优化方面,山海大模型不仅实现了学科和行业能力、推理能力的提升,更实现了吞吐效率、上下文窗口长度、模型参数融合方法的优化;在效果提升方面,山海大模型反事实能力大幅提高,此外,在本月的C-Eval全球大模型综合性考试评测中,山海大模型更是取得了60分以上的优异成绩,成功跻身...
中关村在线消息:在 C-Eval 官网刚刚更新的大模型评测榜中,国产手机品牌vivo跻身前五,同时vivo也是目前的手机品牌中排名最高的一位。C-Eval是由清华大学、上海交通大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集,包含13948道多项选择题,涵盖52个不同学科和四个难度级别,是目前较为权威的中文AI大...