因为我们希望模型可以最大程度的支持开发者,所以我们选择直接跟开发者交流,从开发者的反馈中持续学习迭代 — 这也让我们学到了很多东西;就像大模型是 Reinforcement Learning from Human Feedback 一样,C-Eval 的开发团队是 Continue Learning from Developers’ Feedback. 具体来说,我们在研发的过程中,邀请了字节跳动...
同时,C-Eval数据集也促进了中文大模型技术的快速发展和应用,推动了自然语言处理技术在中文语言处理领域的应用和创新。总的来说,C-Eval数据集是一个非常重要的中文大模型评估数据集,它具有广泛的应用场景和评估指标,能够全面评估中文大模型在不同领域和不同难度任务上的性能表现。通过对C-Eval数据集的应用和研究,我们...
中文大语言模型评估基准:C-EVAL C-EVAL: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models arxiv.org/pdf/2305.0832 github.com/SJTU-LIT/cev cevalbenchmark.com/stat Part1 前言 怎么去评估一个大语言模型呢? 在广泛的NLP任务上进行评估。 在高级LLM能力上进行评估,比如推理、解...
关于C-Eval C-Eval 是一个全面的中文基础模型评估套件。它包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别,如下所示。您可以在探索中查看我们的数据集示例,或查看我们的论文了解更多细节。
就在最近,排行榜 C-Eval 杀出一匹黑马,一家成立仅两个月的初创公司 —— 共生矩阵,一路高歌猛进,杀入排位三(并列)。榜单地址:https://cevalbenchmark.com/static/leaderboard.html 一、来自大湾区的大模型黑马 事实上,共生矩阵的大模型首次上榜是在七月末,发布的模型 GS-LLM-Alpha 是当时粤港澳大湾区...
C-Eval 全称 A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Model,是首个评估中文基础模型高级知识和推理能力的广泛基准。构造评测基准的第一个问题是确定“区分度”,即,什么是区分模型强弱的核心指标。C-Eval考虑知识和推理这两项核心。C-Eval的构建从知识型的任务出发,构造数据集测试...
(注:*表示该模型结果由 C-Eval 团队测试得到,而其他结果是通过用户提交的模型预测计算分数得到。) 公开访问的模型 #模型名称发布机构访问方式提交时间平均平均(Hard)STEM社会科学人文科学其他 0讯飞星火认知大模型(Spark4.0 Max)科大讯飞API, Web2024/10/1491.88087.695.292.795.3 ...
而今天我们介绍的主角——C-Eval,它也是一种评测基准,但它发布榜单的用途不是打榜,证明谁是大模型界的“扛把子”,而是通过分享评测基准构建的逻辑,帮助中文社区的大模型研发者不断打磨和迭代大模型。 2.C-Eval是评测基准,但不仅是评测与打榜 不同颜色的主体表示四个难度等级:初中、高中、大学和专业。
进入C-Eval榜单代表着提交模型的语言判断能力以达到行业领先的水平。但C-Eval榜单并非是判断模型优劣的绝对标准,C-Eval并不能完全杜绝研发团队作弊提高排名的可能,预设的机制更多是对模型爬虫能力的限制而非人员,在开发团队前期发布的文章中,也列出了两种套用模型主要的作弊机制,并呼吁模型开发人员选择困难但正确的...