C-Eval测试中超越gpt-4,位居榜首! 6月25日,在C-Eval 榜单中 ChatGLM2 模型以 71.1 的分数位居榜首,gpt-4位居第二68.7,国产大模型的春天来了? 关于C-Eval 榜单 网站地址:https://cevalbenchmark.com/#home 数据集:http://huggingface.co/datasets/ceval/ceval-exam C-Eval是一个全面的中文基础模型...
榜单地址:https://cevalbenchmark.com/static/leaderboard.html 一、来自大湾区的大模型黑马 事实上,共生矩阵的大模型首次上榜是在七月末,发布的模型 GS-LLM-Alpha 是当时粤港澳大湾区首支入榜团队,也是当时前十名中唯一的初创团队作品。近日,共生矩阵又推出了全新的 GS-LLM-Beta 版本,发布即超越众多大模型产...
就在最近,排行榜 C-Eval 杀出一匹黑马,一家成立仅两个月的初创公司 —— 共生矩阵,一路高歌猛进,杀入排位三(并列)。 榜单地址:https://cevalbenchmark.com/static/leaderboard.html 一、来自大湾区的大模型黑马 事实上,共生矩阵的大模型首次上榜是在七月末,发布的模型 GS-LLM-Alpha 是当时粤港澳大湾区首支入...
github地址:https://github.com/SJTU-LIT/ceval C-Eval榜单地址:https://cevalbenchmark.com/static/leaderboard.html 数据集地址:https://huggingface.co/datasets/ceval/ceval-exam C-Eval的科目覆盖及难度设计 C-Eval包括四个难度级别的多项选择题:初中、高中、大学和专业。C-Eval还附带有C-Eval HARD,...
榜单地址:https://cevalbenchmark.com/static/leaderboard.html 一、来自大湾区的大模型黑马 事实上,共生矩阵的大模型首次上榜是在七月末,发布的模型 GS-LLM-Alpha 是当时粤港澳大湾区首支入榜团队,也是当时前十名中唯一的初创团队作品。 近日,共生矩阵又推出了全新的 GS-LLM-Beta 版本,发布即超越众多大模型产品...
github地址: https://github.com/SJTU-LIT/ceval C-Eval榜单地址: https://cevalbenchmark.com/static/leaderboard.html 数据集地址: https://huggingface.co/datasets/ceval/ceval-exam C-Eval的科目覆盖及难度设计 C-Eval包括四个难度级别的多项选择题:初中、高中、大学和专业。C-Eval还附带有C-Eval HARD...
github地址:https://github.com/SJTU-LIT/ceval C-Eval榜单地址:https://cevalbenchmark.com/static/leaderboard.html 数据集地址:https://huggingface.co/datasets/ceval/ceval-exam C-Eval的科目覆盖及难度设计 C-Eval包括四个难度级别的多项选择题:初中、高中、大学和专业。C-Eval还附带有C-Eval HARD,这是...
github地址:https://github.com/SJTU-LIT/ceval C-Eval榜单地址:https://cevalbenchmark.com/static/leaderboard.html 数据集地址:https://huggingface.co/datasets/ceval/ceval-exam C-Eval的科目覆盖及难度设计 C-Eval包括四个难度级别的多项选择题:初中、高中、大学和专业。C-Eval还附带有C-Eval HARD,这是...
数据显示,在C-Eval榜单上,XuanYuan-70B的总成绩达到71.9分;在CMMLU榜单中,以71.05分的高分位居榜首,在两大权威榜单上的所有开源模型中排名榜首,也是国内首个同时在两大权威榜单排名榜首的金融大模型。C-Eval榜单是由清华大学、上海交通大学和爱丁堡大学合作构建的综合性考试评测集,几乎囊括了所有国内外的...
而今天我们介绍的主角——C-Eval,它也是一种评测基准,但它发布榜单的用途不是打榜,证明谁是大模型界的“扛把子”,而是通过分享评测基准构建的逻辑,帮助中文社区的大模型研发者不断打磨和迭代大模型。 2.C-Eval是评测基准,但不仅是评测与打榜 不同颜色的主体表示四个难度等级:初中、高中、大学和专业。