C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models Paper Reading Note Paper URL:https://arxiv.org/abs/2305.08322 Project URL:https://cevalbenchmark.com/ Code URL:https://github.com/SJTU-LIT/ceval Blog URL:https://yaofu.notion.site/C-Eval-6b79edd91b45...
就在最近,排行榜 C-Eval 杀出一匹黑马,一家成立仅两个月的初创公司 —— 共生矩阵,一路高歌猛进,杀入排位三(并列)。榜单地址:https://cevalbenchmark.com/static/leaderboard.html 一、来自大湾区的大模型黑马 事实上,共生矩阵的大模型首次上榜是在七月末,发布的模型 GS-LLM-Alpha 是当时粤港澳大湾区...
就在最近,排行榜 C-Eval 杀出一匹黑马,一家成立仅两个月的初创公司 —— 共生矩阵,一路高歌猛进,杀入排位三(并列)。 榜单地址:https://cevalbenchmark.com/static/leaderboard.html 一、来自大湾区的大模型黑马 事实上,共生矩阵的大模型首次上榜是在七月末,发布的模型 GS-LLM-Alpha 是当时粤港澳大湾区首支入...
6月25日,在C-Eval 榜单中 ChatGLM2 模型以 71.1 的分数位居榜首,gpt-4位居第二68.7,国产大模型的春天来了? 关于C-Eval 榜单 网站地址:https://cevalbenchmark.com/#home 数据集:http://huggingface.co/datasets/ceval/ceval-exam C-Eval是一个全面的中文基础模型评估套件(多层次、多学科的语文评价基础...
github地址:https://github.com/SJTU-LIT/ceval C-Eval榜单地址:https://cevalbenchmark.com/static/leaderboard.html 数据集地址:https://huggingface.co/datasets/ceval/ceval-exam C-Eval的科目覆盖及难度设计 C-Eval包括四个难度级别的多项选择题:初中、高中、大学和专业。C-Eval还附带有C-Eval HARD,...
就在最近,排行榜 C-Eval 杀出一匹黑马,一家成立仅两个月的初创公司 —— 共生矩阵,一路高歌猛进,杀入排位三(并列)。 榜单地址:https://cevalbenchmark.com/static/leaderboard.html 一、来自大湾区的大模型黑马 事实上,共生矩阵的大模型首次上榜是在七月末,发布的模型 GS-LLM-Alpha 是当时粤港澳大湾区首支入...
github地址: https://github.com/SJTU-LIT/ceval C-Eval榜单地址: https://cevalbenchmark.com/static/leaderboard.html 数据集地址: https://huggingface.co/datasets/ceval/ceval-exam C-Eval的科目覆盖及难度设计 C-Eval包括四个难度级别的多项选择题:初中、高中、大学和专业。C-Eval还附带有C-Eval HARD...
github地址:https://github.com/SJTU-LIT/ceval C-Eval榜单地址:https://cevalbenchmark.com/static/leaderboard.html 数据集地址:https://huggingface.co/datasets/ceval/ceval-exam C-Eval的科目覆盖及难度设计 C-Eval包括四个难度级别的多项选择题:初中、高中、大学和专业。C-Eval还附带有C-Eval HARD,这是...
github地址:https://github.com/SJTU-LIT/ceval C-Eval榜单地址:https://cevalbenchmark.com/static/leaderboard.html 数据集地址:https://huggingface.co/datasets/ceval/ceval-exam C-Eval的科目覆盖及难度设计 C-Eval包括四个难度级别的多项选择题:初中、高中、大学和专业。C-Eval还附带有C-Eval HARD,这是...
作为国内最权威的两个大语言模型测试榜单,C-Eval是由清华大学、上海交通大学和爱丁堡大学合作构建的综合性考试评测集,覆盖52个学科,是目前权威的中文AI大模型评测榜单之一。CMMLU 是由MBZUAI、上海交通大学、微软亚洲研究院共同推出,包含67个主题,专门用于评估语言模型在中文语境下的知识和推理能力。在CMMLU榜单评测...