就在最近,排行榜 C-Eval 杀出一匹黑马,一家成立仅两个月的初创公司 —— 共生矩阵,一路高歌猛进,杀入排位三(并列)。榜单地址:https://cevalbenchmark.com/static/leaderboard.html 一、来自大湾区的大模型黑马 事实上,共生矩阵的大模型首次上榜是在七月末,发布的模型 GS-LLM-Alpha 是当时粤港澳大湾区...
在面向中文的模型中,MiniMax表现最佳,在排行榜上排名第四,平均比ChatGPT低5.4个百分点。排行榜上的下一个模型Claude-instant-v1.0,在平均值方面略微低于MiniMax但再STEM科目胜过MiniMax。其他模型的排名如下:GLM-130B,Bloomz-mt,LLaMA-65B,ChatGLM-6B,Chinese-LLaMA-13B,MOSS和Chinese-Alpaca-13B,表现通常与模型大小...
C-Eval全球大模型综合性考试评测榜公布,全球排名前四的分别为清华智谱的ChatGLM2、OpenAI的GPT-4、商汤的SenseChat, APUS的AiLMe-100B v1。然而值得关注的是,在难题排行榜中,APUS位列全球榜首!C-Eval是由清华大学、上海交通大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集,包含13948道多项选择...
(“智鹿”登上C-Eval榜单TOP 20、CMMLU榜单TOP 10)而就在此前不久,2023年国际计算机视觉会议ICCV于法国落幕。招联与中科大完成的“3D动作表示学习”“扩散生成图像检测”2篇论文在该顶会发表。其中,团队针对深度伪造技术首创的“DIRE”模型,达到SOTA(该项研究任务中最先进)水平,得到国际级平台的官方认可。...
vivo大模型能力再进一步,C-Eval评估排行第五 随着人工智能技术的不断发展,越来越多的企业开始投入研究和开发大模型,以期在智能领域取得突破。近日,中国知名手机品牌vivo在人工智能领域再次取得了重大突破,其大模型能力在C-Eval评估排行榜上位列第五名,这标志着vivo在人工智能领域的技术实力得到了进一步认可。
以下结果代表zero-shot或者few-shot测试(模型描述包括prompt形式可点进模型查看)。随时欢迎你们向C-Eval提交模型的预测(zero-shot或者few-shot的结果都可以),我们的提交系统会根据预测自动计算分数。点击这里开始提交(默认情况下你的提交结果只对你自己可见,并不会公开在排行榜上,你可以在提交界面请求公开)。
近日,C-Eval全球大模型综合性考试评测榜公布,平均分排名前三甲分别是清华智谱的ChatGLM2、OpenAI的GPT-4和商汤的SenseChat,来自APUS的AiLMe-100B v1名列第四。值得关注的是,在难题排行榜中,APUS力压群雄,位列全球榜首! APUS全名为麒麟合盛网络技术股份有限公司,创立于2014年。
C-Eval表示,在其测试中发现许多经过指令微调之后的模型在zero-shot下更好。其测试的很多模型同时有zero-shot和few-shot的结果,排行榜中显示了总平均分更好的那个设置。 C-Eval榜单还注明了,大模型名字中带“*”的,表示该模型结果由C-Eval团队测试得到,而其他结果是通过用户提交获得。
在OpenAI GPT 系列 / Google PaLM 系列 / DeepMind Chinchilla 系列 / Anthropic Claude 系列的研发过程中,MMLU/MATH/BBH这三个数据集发挥了至关重要的作用,因为它们比较全面地覆盖了模型各个维度的能力。最值得注意的是 MMLU 这个数据集,它考虑了 57 个学科,从人文到社科到理工多个大类的综合知识能力。DeepMind ...