以下结果代表zero-shot或者few-shot测试(模型描述包括prompt形式可点进模型查看)。随时欢迎你们向C-Eval提交模型的预测(zero-shot或者few-shot的结果都可以),我们的提交系统会根据预测自动计算分数。点击这里开始提交(默认情况下你的提交结果只对你自己可见,并不会公开在排行榜上,你可以在提交界面请求公开)。
具有四种不同的难度--特别是C-EVAL HARD基准是中国第一个提供复杂推理问题的基准。 努力减少数据泄漏--作者的问题大多来自模拟考试的PDF或Microsoft Word文件,这些文件由作者进一步处理,而AGIEval和MMCU收集的是中国过去国家考试的确切题目。 C-EVAL的概览图。不同颜色的主体表示四个难度等级:初中、高中、大学和专业。
在实际应用中,以百度曦灵数字人为例,这款基于百度智能云数字人SAAS平台的AI数字人产品,在开发和优化过程中也充分利用了C-Eval数据集进行评估。通过C-Eval的评估,百度曦灵数字人在理解和生成中文语言方面的能力得到了全面提升,从而能够更好地满足用户的需求和期望。这不仅是C-Eval数据集应用的一个成功案例,也展示了...
C-Eval数据集的应用场景非常广泛,可以用于训练、测试和评估各种中文大模型,如对话生成、机器翻译、文本摘要、情感分析等。通过在C-Eval数据集上对中文大模型进行评估,可以了解模型的性能表现,发现模型存在的问题和不足,为模型的优化和改进提供参考。在C-Eval数据集的评估中,可以采用多种不同的评估指标,如准确率、召...
C-Eval是目前权威的中文AI大模型评测数据集之一,用于考察大模型的知识和推理能力,本篇对C-Eval数据集做简要介绍,并演示如何使用C-Eval对大模型进行评测。 C-Eval整体结构概述 在前文《大模型系列:LLM-Eval大模型评测理论简述》中介绍了大模型需要评测的内容,包括NLP任务、知识和逻辑推理、安全性、对齐性等多个角度...
为了更准确地衡量这些模型的能力,C-Eval数据集应运而生,它成为了评估中文大模型性能的重要基准之一。 C-Eval,这一全面的中文基础模型评估套件,由上海交通大学、清华大学以及英国爱丁堡大学的研究人员在2023年5月联合推出。该数据集包含了13948个多项选择题,这些题目广泛覆盖了52个不同的学科领域,如科学、技术、工程...
在前文《大模型系列:LLM-Eval大模型评测理论简述》中介绍了大模型需要评测的内容,包括NLP任务、知识和逻辑推理、安全性、对齐性等多个角度,C-Eval数据集主要用于评测大模型的知识和逻辑推理能力,即大模型是否能够认识和理解广泛的世界知识,并类似人类一样对事物进行推理规划。
C-Eval中文大模型权威排名公布!C-Eval全球大模型综合性考试评测榜公布,全球排名前四的分别为清华智谱的ChatGLM2、OpenAI的GPT-4、商汤的SenseChat, APUS的AiLMe-100B v1。然而值得关注的是,在难题排行榜中,APUS位列全球榜首!C-Eval是由清华大学、上海交通大学和爱丁堡大学合作构建的面向中文语言模型的综合性...
2 - C-Eval 的目标 有了上述对于知识和推理的阐述,我们决定从知识型的任务出发,构造数据集测试模型的知识能力,相当于对标一下 MMLU 这个数据集;同时,我们也希望带一点推理相关的内容,进一步衡量模型的高阶能力,所以我们把 C-Eval 中需要强推理的学科(微积分,线性代数,概率 …)专门抽出来,命名为 C-Eval Hard ...
日前,C-Eval中文大模型榜单更新,云天励飞大模型以77.1的平均分位列榜单第一。(榜单目前有62个模型) C-Eval是由清华大学、上海交通大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集。它包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别,是全球最具影响力的中文评测集之一。