C-Eval是由清华大学、上海交通大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集。它包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别,是全球最具影响力的中文评测集之一。C-Eval的题目难度和学科覆盖范围都非常广泛,能够全面评估中文大模型在不同领域和不同难度任务上的性能表现。C-Eval...
C-Eval HARD基准也是中国第一个提供复杂推理问题的基准。 C-Eval 研发团队介绍,希望C-Eval 可以在整体上对标MMLU(这个数据集被用于 GPT-3.5, GPT-4, PaLM, PaLM-2, Gopher, Chinchilla 的研发),希望在 Hard 的部分对标 MATH (这个数据集被用于 GPT-4, PaLM-2, Minerva, Galactica 的研发)。 2.3手工完成...
C-EVAL为清华大学、上海交通大学和爱丁堡大学合作研发,作为中文大模型的基准,与在mmlu、agieval并列为目前对模型潜力判断最具权威性的大模型榜单。C-Eval测试题目为选择题,据开发团队介绍,严格的预设机制杜绝了混入训练集的可能,因此在正常考察模型潜力上的公正性和全面性较高,在开发者中也有很高的权威性,能够...
作者:符尧,何俊贤 本项目由上海交通大学,清华大学,爱丁堡大学共同完成立项于 2023 年 2 月 28 日从 2023 年 4 月开始 Alpha - Beta 测试发布于 2023 年 5 月 22 日本文约5800字,建议阅读10分钟这篇文章是把我们构造 C-Eval 的过程记下来,与开发者们分享我们的思考和我们视角下的研发重点。
在前文《大模型系列:LLM-Eval大模型评测理论简述》中介绍了大模型需要评测的内容,包括NLP任务、知识和逻辑推理、安全性、对齐性等多个角度,C-Eval数据集主要用于评测大模型的知识和逻辑推理能力,即大模型是否能够认识和理解广泛的世界知识,并类似人类一样对事物进行推理规划。
本文将介绍C-Eval测评框架及其在lm evaluation harness和vllm上的实践应用,帮助读者了解大规模语言模型测评的方法和实践经验。 一、C-Eval测评框架简介 C-Eval是一个专门针对大规模语言模型的测评框架,旨在提供全面、客观、可操作的评估指标。它涵盖了多个维度,包括语言理解、生成能力、逻辑推理等,从而全面评估LLM的...
原本是打算再写个RomanStyle将数字转成罗马数字的,我将转换过程独立成四个阶段:词法过滤、正则匹配、生成AST、遍历AST生成结果。后面会尝试完成RomanStyle,以证明这个坑爹的设计是可取的(逃 呵呵,一个小模块就有2k行代码了,那CEval这个项目最终也不会很简单就是了。
11月16日,根据最新成绩,千亿级参数的夸克大模型登顶C-Eval和CMMLU两大权威评测榜单。在国内大模型赛道火热的当下,夸克自研大模型凭借过硬的研发能力及数据、行业、平台等优势成为新晋“学霸”。作为国内最权威的两个大语言模型测试榜单,C-Eval是由清华大学、上海交通大学和爱丁堡大学合作构建的综合性考试评测集,...