GitHub is where people build software. More than 150 million people use GitHub to discover, fork, and contribute to over 420 million projects.
Official github repo for C-Eval, a Chinese evaluation suite for foundation models [NeurIPS 2023] - hkust-nlp/ceval
C-EVAL: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models arxiv.org/pdf/2305.0832 github.com/SJTU-LIT/cev cevalbenchmark.com/stat Part1 前言 怎么去评估一个大语言模型呢? 在广泛的NLP任务上进行评估。 在高级LLM能力上进行评估,比如推理、解决困难的数学问题、写代码。 在英...
github地址:https://github.com/SJTU-LIT/ceval C-Eval榜单地址:https://cevalbenchmark.com/static/leaderboard.html 数据集地址:https://huggingface.co/datasets/ceval/ceval-exam C-Eval的科目覆盖及难度设计 C-Eval包括四个难度级别的多项选择题:初中、高中、大学和专业。C-Eval还附带有C-Eval HARD,...
https://github.com/llmeval/llmeval-1/tree/master chatGLM2-6B 模型在 MMLU(英文)、C-Eval(中文)、GSM8K(数学)、BBH(英文)上的测评结果。 ChatGLM-6B升级V2:性能大幅提升,8-32k上下文,推理提速42% | 量子位 ChatGLM相关 - 知乎 (zhihu.com) ...
以上的这些问题都是我们在跟开发者的交互过程中,从开发者反馈里发现的。在现在 C-Eval 的公开版本的文档和github代码中,这些问题都有解决。 上面的这些过程也证明了,从模型研发的视角来对待 C-Eval 数据集和榜单,可以非常好地帮助大家开发中文大模型。
github地址:https://github.com/SJTU-LIT/ceval C-Eval榜单地址:https://cevalbenchmark.com/static/leaderboard.html 数据集地址:https://huggingface.co/datasets/ceval/ceval-exam C-Eval的科目覆盖及难度设计 C-Eval包括四个难度级别的多项选择题:初中、高中、大学和专业。C-Eval还附带有C-Eval HARD,这是...
以上的这些问题都是我们在跟开发者的交互过程中,从开发者反馈里发现的。在现在 C-Eval 的公开版本的文档和 github 代码中,这些问题都有解决。 上面的这些过程也证明了,从模型研发的视角来对待 C-Eval 数据集和榜单,可以非常好地帮助大家开发中文大模型。
近日,APUS与深圳大学大数据系统计算技术国家工程实验室(以下简称“大数据国家工程实验室”)联合训练伶荔Linly-70B中文大模型,并在GitHub上正式首发开源,这是APUS大模型3.0的首个开源大模型。据了解,APUS大模型3.0伶荔在中文基准测评榜单C-Eval上评分80.6分,中文能力超越GPT-4,在所有参评模型中排名第三,相比...
https://github.com/Duxiaoman-DI/XuanYuan 今年5月份,度小满开源了国内首个千亿参数的金融大模型,已经有上百家金融机构申请试用。本次发布的新版大模型相较于上一个版本能力全面提升:在增量预训练和指令微调阶段,加入了度小满业务场景中的海量金融数据,对金融问题回复更专业,金融知识理解能力提升明显;同时在预...