C-Eval包含三份数据分别是dev,val和test,其中dev数据有答案并且带有答案解释,目的是用来构建CoT思维链的few-shot提示语,val数据集有答案,而test数据集没有答案,一般的,利用dev的few-shot在val数据做离线测试获得C-Eval评分,而在test数据集上提交答案给C-Eval官网获得最终得分。 具体的数据在HuggingFace官网中Datasets...
本任务就是在这样的背景下产生的,并在CHIP2021会议发布了评测任务(http://cips-chip.org.cn/2021/eval1),目标是对互联网在线问诊记录中的临床发现的部分进行阴阳性的分类判别。 任务说明 本次标注数据全部来源于春雨医生的互联网在线问诊的公开数据。阴阳性的定义一般认为是患者主诉病情描述和医生诊断判别中的阴性...
在前文《大模型系列:LLM-Eval大模型评测理论简述》中介绍了大模型需要评测的内容,包括NLP任务、知识和逻辑推理、安全性、对齐性等多个角度,C-Eval数据集主要用于评测大模型的知识和逻辑推理能力,即大模型是否能够认识和理解广泛的世界知识,并类似人类一样对事物进行推理规划。