具有四种不同的难度--特别是C-EVAL HARD基准是中国第一个提供复杂推理问题的基准。 努力减少数据泄漏--作者的问题大多来自模拟考试的PDF或Microsoft Word文件,这些文件由作者进一步处理,而AGIEval和MMCU收集的是中国过去国家考试的确切题目。 C-EVAL的概览图。不同颜色的主体表示四个难度等级:初中、高中、大学和专业。
相当于对标一下 MMLU 这个数据集;同时,我们也希望带一点推理相关的内容,进一步衡量模型的高阶能力,所以我们把 C-Eval 中需要强推理的学科(微积分,线性代数,概率 …)专门抽出来,命名为 C-Eval Hard 子集,用来衡量模型的推理能力,相当于对标一下 MATH 这个数据集。
因为我们希望模型可以最大程度的支持开发者,所以我们选择直接跟开发者交流,从开发者的反馈中持续学习迭代 — 这也让我们学到了很多东西;就像大模型是 Reinforcement Learning from Human Feedback 一样,C-Eval 的开发团队是 Continue Learning from Developers’ Feedback. 具体来说,我们在研发的过程中,邀请了字节跳动...
C-Eval 希望可以在整体上对标 MMLU (这个数据集被用于 GPT-3.5, GPT-4, PaLM, PaLM-2, Gopher, Chinchilla 的研发),希望在 Hard 的部分对标 MATH (这个数据集被用于 GPT-4, PaLM-2, Minerva, Galactica 的研发)。 这里需要注意的是,我们的最重要目标是辅助模型开发,而不是打榜。一味地追求榜单排名高会...
高梵是爱丁堡大学AI方向的研究生,今年即将毕业,在2023年末回到国内。他是当下比较新的一个大模型评测基准CoT Hub的核心构建者之一。CoT Hub这个项目的发起者是符尧,在这之前,符尧另一项瞩目的工作是C-Eval,大模型中文能力上标志性的评测基准。 上九天揽月也下五洋捉鳖,一边琢磨着下一代GPT,一边用GPT Store吃用...
由于目前 LLM 支持的文本长度窗口(context window)差异较大,为了确保基准测试集的适用性,CLongEval 按照输入文本的长度构建了三个子集:small set、medium set 和 large set。small set 主要包括长度在 1K 到 16K 个 token 之间的测试数据,medium set 是 16K 到 50K 个 token 之间,而 large set 包含的数据扩展...
这篇论文《CLongEval: 用于评估长文本大型语言模型的中文基准》填补了评估设计用于处理扩展上下文的中文大型语言模型(LLMs)的重要空白。它引入了CLongEval,一个专门设计用于评估这些模型在长文本范围内表现的基准。这个基准因其全面性而显著,包括7个... 内容导读...
何俊贤:C-Eval是中文的第一个测大模型的评测基准。 以前在自然语言处理方向,也有很多中文的数据集和评测基准被广泛应用。但随着去年底像GPT这样的大模型出来后,很多以前的测评就没那么全面,因为大模型的能力实在太强了。以前的评测基准的区分度不够,行业突然经历大变革,急需新的评测基准来帮助大家开发模型。
2023年llm评估基准+1psyeval第一个针对心理健康领域独特特征的综合评估基准并对最新文章查询,为您推荐llm评估基准+1psyeval第一个针对心理健康领域独特特点的综合评估基准并对,llm评估基准+1psyeval第1个针对心理健康领域独特特征的综合评估基准并对,llm评估基准+1psyeval第
目前只有一个双语基准 LongBench 可用,中文部分仅有平均长度约 13K 个字符的 1000 个测试实例。基于中文领域缺乏高质量评估数据集的现状,这篇论文提出了一个基准测试集,以准确评估 LLM 在中文领域的长文本上下文处理能力。 论文提出了 C...