1.注册c-eval, 一个适用于大语言模型的多层次多学科中文评估套件2.下载ceval数据集 wget https://huggingface.co/datasets/ceval/ceval-exam/resolve/main/ceval-exam.zip3.跑出模型在ceval的test数据集上的预测值…
因为我们希望模型可以最大程度的支持开发者,所以我们选择直接跟开发者交流,从开发者的反馈中持续学习迭代 — 这也让我们学到了很多东西;就像大模型是 Reinforcement Learning from Human Feedback 一样,C-Eval 的开发团队是 Continue Learning from Developers’ Feedback. 具体来说,我们在研发的过程中,邀请了字节跳动...
场景1 ,辅助超参数搜索:我们有多种预训练数据混合方案,不确定哪种更好,于是我们在 C-Eval 上相互比较一下,来确定最优预训练数据混合方案。 场景2 ,比较模型的训练阶段:我有一个预训练的 checkpoint ,也有一个 instruction-tuned checkpoint,然后我想要衡量我的 instruction-tuning 的效果如何,这样可以把两个 check...