github地址:https://github.com/SJTU-LIT/ceval C-Eval榜单地址:https://cevalbenchmark.com/static/leaderboard.html 数据集地址:https://huggingface.co/datasets/ceval/ceval-exam C-Eval的科目覆盖及难度设计 C-Eval包括四个难度级别的多项选择题:初中、高中、大学和专业。C-Eval还附带有C-Eval HARD,...
就在最近,排行榜 C-Eval 杀出一匹黑马,一家成立仅两个月的初创公司 —— 共生矩阵,一路高歌猛进,杀入排位三(并列)。榜单地址:https://cevalbenchmark.com/static/leaderboard.html 一、来自大湾区的大模型黑马 事实上,共生矩阵的大模型首次上榜是在七月末,发布的模型 GS-LLM-Alpha 是当时粤港澳大湾区...
就在最近,排行榜 C-Eval 杀出一匹黑马,一家成立仅两个月的初创公司 —— 共生矩阵,一路高歌猛进,杀入排位三(并列)。 榜单地址:https://cevalbenchmark.com/static/leaderboard.html 一、来自大湾区的大模型黑马 事实上,共生矩阵的大模型首次上榜是在七月末,发布的模型 GS-LLM-Alpha 是当时粤港澳大湾区首支入...
6月25日,在C-Eval 榜单中 ChatGLM2 模型以 71.1 的分数位居榜首,gpt-4位居第二68.7,国产大模型的春天来了? 关于C-Eval 榜单 网站地址:https://cevalbenchmark.com/#home 数据集:http://huggingface.co/datasets/ceval/ceval-exam C-Eval是一个全面的中文基础模型评估套件(多层次、多学科的语文评价基础...
Blog URL:https://yaofu.notion.site/C-Eval-6b79edd91b454e3d8ea41c59ea2af873 TL;DR 上海交大和清华联合研发的中文大语言模型测试集,是目前最流行的中文测试集之一 Introduction 背景 在OpenAI GPT 系列 / Google PaLM 系列 / DeepMind Chinchilla 系列 / Anthropic Claude 系列的研发过程中,MMLU/MATH/BBH...
就在最近,排行榜 C-Eval 杀出一匹黑马,一家成立仅两个月的初创公司 —— 共生矩阵,一路高歌猛进,杀入排位三(并列)。 榜单地址:https://cevalbenchmark.com/static/leaderboard.html 一、来自大湾区的大模型黑马 事实上,共生矩阵的大模型首次上榜是在七月末,发布的模型 GS-LLM-Alpha 是当时粤港澳大湾区首支入...
github地址:https://github.com/SJTU-LIT/ceval C-Eval榜单地址:https://cevalbenchmark.com/static/leaderboard.html 数据集地址:https://huggingface.co/datasets/ceval/ceval-exam C-Eval的科目覆盖及难度设计 C-Eval包括四个难度级别的多项选择题:初中、高中、大学和专业。C-Eval还附带有C-Eval HARD,这是...
github地址: https://github.com/SJTU-LIT/ceval C-Eval榜单地址: https://cevalbenchmark.com/static/leaderboard.html 数据集地址: https://huggingface.co/datasets/ceval/ceval-exam C-Eval的科目覆盖及难度设计 C-Eval包括四个难度级别的多项选择题:初中、高中、大学和专业。C-Eval还附带有C-Eval HARD...
github地址:https://github.com/SJTU-LIT/ceval C-Eval榜单地址:https://cevalbenchmark.com/static/leaderboard.html 数据集地址:https://huggingface.co/datasets/ceval/ceval-exam C-Eval的科目覆盖及难度设计 C-Eval包括四个难度级别的多项选择题:初中、高中、大学和专业。C-Eval还附带有C-Eval HARD,这是...
度小满金融大模型C-Eval、CMMLU双榜排名第一,正式开源!9月22日,度小满宣布“轩辕70B”金融大模型开源,所有用户均可自由下载和试用,并公布了“轩辕70B”在C-Eval、CMMLU两大权威大语言模型评测基准的成绩。数据显示, 在C-Eval榜单上,XuanYuan-70B的总成绩达到71.9分;在CMMLU榜单中,以71.05分的高分位居...