在常见的中、英文评测榜单,可以看到,在英文MMLU榜单中,Colossal-LLaMA-2-7B-base在低成本增量预训练的加持下,克服了灾难性遗忘的问题,能力逐步提升(44.47 -> 53.06),在所有7B规模的模型中,表现优异。 在中文榜单中,主要对比了CMMLU, AGIEVAL, GAOKAO与 C-Eval,效果远超基于LLaMA-2的其他中文汉化模型。尤其是与...
code地址:https://github.com/hpcaitech/ColossalAI---https://github.com/hpcaitech/ColossalAI/tree/main/applications/Colossal-LLaMA-2--- 模型地址:hpcai-tech/Colossal-LLaMA-2-7b-base · Hugging Face ColossalEval评估体系框架评测:https://github.com/Camille7777/ColossalAI_yt/tree/main/applications/Co...
构建大型模型的高成本是许多企业和开发者面临的挑战。为了降低构建成本,Colossal-AI团队运用LLaMA-2的基础能力,采用高效训练方法,使用约8.5B token数据、15小时和数千元的算力,成功构建了性能卓越的中文LLaMA-2。相较于原始LLaMA-2,中文LLaMA-2不仅提升中文能力,还增强英文能力,性能可与开源社区同规...
"model.layers.2.self_attn.o_proj.weight": "pytorch_model-00002.bin", "model.layers.2.mlp.gate_proj.weight": "pytorch_model-00002.bin", "model.layers.2.mlp.up_proj.weight": "pytorch_model-00002.bin", "model.layers.2.mlp.down_proj.weight": "pytorch_model-00002.bin", "model...