C-Eval是一个全面的中文基础模型评估套件。 它由13948个多项选择题组成,涵盖52个不同的学科和四个难度级别,如下所示。您可以在Explore查看我们的数据集示例,或查看我们的论文以了解更多详细信息。涵盖了52个不同学科的13948个多项选择题,分为四个难度级别。更多详情请访问我们的网站或查看我们的论文。 # 我们的...
目前只有一个双语基准 LongBench 可用,中文部分仅有平均长度约 13K 个字符的 1000 个测试实例。基于中文领域缺乏高质量评估数据集的现状,这篇论文提出了一个基准测试集,以准确评估 LLM 在中文领域的长文本上下文处理能力。 论文提出了 CLongEval,一个包含了 7 种 NLP 任务、覆盖 4 个能力维度的中文长文本能力测...
在 MMLU、BBH等反映模型综合能力的评测集上,Yi-34B 也全部胜出,取得了在各项测试任务中超越全球领跑者的成绩。在HF的open_llm_leaderboard榜单上,Yi-34B在主要的测试指标方面均超越了LLaMA2-70B、Falcon-180B等系列模型。 Yi-34B的中文能力表现也异常突出,在C-Eval中文权威榜单排行榜上超越了目前所有的开源模型。
目前只有一个双语基准 LongBench 可用,中文部分仅有平均长度约 13K 个字符的 1000 个测试实例。基于中文领域缺乏高质量评估数据集的现状,这篇论文提出了一个基准测试集,以准确评估 LLM 在中文领域的长文本上下文处理能力。 论文提出了 C...
由于目前 LLM 支持的文本长度窗口(context window)差异较大,为了确保基准测试集的适用性,CLongEval 按照输入文本的长度构建了三个子集:small set、medium set 和 large set。small set 主要包括长度在 1K 到 16K 个 token 之间的测试数据,medium set 是 16K 到 50K 个 token 之间,而 large set 包含的数据扩展...
数据集构建 以下是 CLongEval 包含的测试任务。每个任务针对测试一种上文提到的基础能力。 长篇故事问答:该任务要求模型根据长篇故事中的部分上下文来回答问题,考察模型能否利用部分上下文信息进行阅读理解。模型需要在输入中找到有关的上下文并进行抽象推理来得到正确答案。作者在 153 本中国叙事小说中提取了 200 个不重...
数据集构建 以下是 CLongEval 包含的测试任务。每个任务针对测试一种上文提到的基础能力。 长篇故事问答:该任务要求模型根据长篇故事中的部分上下文来回答问题,考察模型能否利用部分上下文信息进行阅读理解。模型需要在输入中找到有关的上下文并进行抽象推理来得到正确答案。作者在 153 本中国叙事小说中提取了 200 个不重...
论文提出了 CLongEval,一个包含了 7 种 NLP 任务、覆盖 4 个能力维度的中文长文本能力测试集。以确保对模型能力的综合评估,作者首先对 LLM 处理长文本所需的关键能力进行了拆解。 如下图所示的框架,基于于人类自身解决问题的范式,作者将 LLM 在解决长上下文任务时所用的基础能力分解为:1)在部分上下文(Partial ...
数据集构建 以下是 CLongEval 包含的测试任务。每个任务针对测试一种上文提到的基础能力。 长篇故事问答:该任务要求模型根据长篇故事中的部分上下文来回答问题,考察模型能否利用部分上下文信息进行阅读理解。模型需要在输入中找到有关的上下文并进行抽象推理来得到正确答案。作者在 153 本中国叙事小说中提取了 200 个不重...