1.注册c-eval, 一个适用于大语言模型的多层次多学科中文评估套件2.下载ceval数据集 wget https://huggingface.co/datasets/ceval/ceval-exam/resolve/main/ceval-exam.zip3.跑出模型在ceval的test数据集上的预测值…
数据集地址:https://huggingface.co/datasets/ceval/ceval-exam C-Eval的科目覆盖及难度设计 C-Eval包括四个难度级别的多项选择题:初中、高中、大学和专业。C-Eval还附带有C-Eval HARD,这是C-Eval中非常具有挑战性的一部分主题(子集),是从C-Eval中选择的8个具有挑战性的数学、物理和化学科目,需要高级推理能力...
--操作系统版本:Ubuntu 20.04.6 LTS 【问题描述】:ModelZoo上缺少Baichuan2-7B-Chat以及Baichuan2-13B-Chat的精度评估代码(Ceval数据集) 需提供 https://gitee.com/ascend/ModelZoo-PyTorch/tree/master/PyTorch/built-in/foundation/Baichuan-13B本帖最后由 奶油泡芙 于2024-11-28 15:12:04 编辑 ...
2.3 手工完成数据集,防止混入训练集,确保数据质量 三、打分的绝对值可信吗? 四、定量测试C-Eval 可以参考的材料 一、模型评估用来干啥的? 如何公平、有效的评估一个模型不仅仅是个数据工程,也是个值得深究的学术问题。光从上面的讨论,我们就已经提到了各种评估方法的种种问题,那么如何解决这些问题从而可以更好的展...
数据集: huggingface.co/datasets/ceval/ceval-exam C-Eval是一个全面的中文基础模型评估套件(多层次、多学科的语文评价基础模型套件)。它由13948个选择题组成 问题跨越52个不同的学科和四个难度级别,测试集用于模型评估(简单来说就是针对中文模型的综合测试机) ...
数据集问题+选项答案解释说明 dev ✓ ✓ ✓ val ✓ ✓ × test ✓ × × 具体的数据在HuggingFace官网中Datasets下搜索ceval-exam既可进行预览,选择Subset为college_programming,数据分割为dev,预览5条大学编程试题。 C-Eval的HuggingFace数据预览 C-Eval的Prompt范式 分别有两种Prompt提示语方式来引导模型...
数据集: huggingface.co/datasets/ceval/ceval-exam C-Eval是一个全面的中文基础模型评估套件(多层次、多学科的语文评价基础模型套件)。它由13948个选择题组成 问题跨越52个不同的学科和四个难度级别,测试集用于模型评估(简单来说就是针对中文模型的综合测试机) ...
数据集地址: https://huggingface.co/datasets/ceval/ceval-exam C-Eval的科目覆盖及难度设计 C-Eval包括四个难度级别的多项选择题:初中、高中、大学和专业。C-Eval还附带有C-Eval HARD,这是C-Eval中非常具有挑战性的一部分主题(子集),是从C-Eval中选择的8个具有挑战性的数学、物理和化学科目,需要高级推理能...
数据集: huggingface.co/datasets/ceval/ceval-exam C-Eval是一个全面的中文基础模型评估套件(多层次、多学科的语文评价基础模型套件)。它由13948个选择题组成 问题跨越52个不同的学科和四个难度级别,测试集用于模型评估(简单来说就是针对中文模型的综合测试机) ...
数据集:huggingface.co/datasets C-Eval是一个全面的中文基础模型评估套件(多层次、多学科的语文评价基础模型套件)。它由13948个选择题组成 问题跨越52个不同的学科和四个难度级别,测试集用于模型评估(简单来说就是针对中文模型的综合测试机) 效果展示 1 数理逻辑 2 知识推理 3 长文档理解 ChatGLM2-6B git地址...