在常见的中、英文评测榜单,可以看到,在英文MMLU榜单中,Colossal-LLaMA-2-7B-base在低成本增量预训练的加持下,克服了灾难性遗忘的问题,能力逐步提升(44.47 -> 53.06),在所有7B规模的模型中,表现优异。 在中文榜单中,主要对比了CMMLU, AGIEVAL, GAOKAO与 C-Eval,效果远超基于LLaMA-2的其他中文汉化模型。尤其是与...
FlagAlpha/Atom-7B Llama-2-7B 0.1T 49.96 41.1 39.83 33 - IDEA-CCNL/ziva-LLaMA-13B-v1.1 Llama-13B 0.11T 50.25 40.99 40.04 30.54 - Colossal-LLaMA-2-7b-base Llama-2-7B 0.0085T 53.06 49.89 51.48 58.82 50.2 Colossal-LLaMA-2-13b-base ...
pip install bitsandbytes 接着使用8比特量化加载该模型: importtorchfromtransformersimportAutoTokenizer,AutoModelForCausalLM model_name='hpcai-tech/Colossal-LLaMA-2-7b-base'tokenizer=AutoTokenizer.from_pretrained(model_name,trust_remote_code=True)max_memory=f'{int(torch.cuda.mem_get_info()[0]/1024*...
Colossal-AI团队利用LLaMA-2的基础能力,采用高效的训练方法,仅使用约8.5B token数据、15小时、数千元的训练成本,成功构建了Colossal-LLaMA-2- 7B-base可同时支持中文和英文两种语言,具有一个可扩展的上下文窗口涵盖4096个标记。值得注意的是,当与标准中文和英文评估指标(包括C-Eval和MMLU等)的等效规模模型进行基准测...
(2)、分词器 (3)、训练策略 (3.1)、多阶段训练 (3.2)、基于桶的训练 (4)、跨领域大模型的桥接 将上述过程应用于任何领域的知识转移,可以实现成本效益的轻量级领域特定基础大模型的构建。 1、性能评估 我们在4个数据集上进行了全面评估,并将我们的Colossal-Llama-2-7b-base模型与各种模型进行了比较。
Colossal-LLaMA-2:开源可商用中文LLaMA-2 千元预算半天训练,效果媲美主流大模型,开源可商用中文LLaMA-2。 (1)5 个开源基础模型:书生·浦语InternLM-20B、70B模型Xwin-LM、数学通用大模型MAmmoTH、多模态通用大模型NExT-GPT、多模态大模型MMICL。 (2)1个开源低成本Llama2训练方案:ColossalAI开源Llama2低成本训练...
性能表现 在中、英文评测榜单中,中文LLaMA-2在英文MMLU榜单中,通过低成本增量预训练,性能显著提升(44.47 -> 53.06),在所有7B规模模型中表现优异。在中文榜单中,主要对比CMMLU、AGIEVAL、GAOKAO与C-Eval,中文LLaMA-2效果远超基于LLaMA-2的其他中文汉化模型,与原始LLaMA-2相比,中文能力提升显著...
"model.layers.2.self_attn.o_proj.weight": "pytorch_model-00002.bin", "model.layers.2.mlp.gate_proj.weight": "pytorch_model-00002.bin", "model.layers.2.mlp.up_proj.weight": "pytorch_model-00002.bin", "model.layers.2.mlp.down_proj.weight": "pytorch_model-00002.bin", "model...
Linly-AI/Chinese-LLaMA-2-7B-hfLlama-2-7B1.0T37.4329.9232.0027.57- wenge-research/yayi-7b-llama2Llama-2-7B-38.5631.5230.9925.95- ziqingyang/chinese-llama-2-7bLlama-2-7B-33.8634.6934.5225.1834.2 TigerResearch/tigerbot-7b-baseLlama-2-7B0.3T43.7342.0437.6430.61- ...
wenge-research/yayi-7b-llama2Llama-2-7B-38.5631.5230.9925.95- ziqingyang/chinese-llama-2-7bLlama-2-7B-33.8634.6934.5225.1834.2 TigerResearch/tigerbot-7b-baseLlama-2-7B0.3T43.7342.0437.6430.61- LinkSoul/Chinese-Llama-2-7bLlama-2-7B-48.4138.3138.4527.72- ...