指令数据对下游结果的提升作用明显:对比LLaMA-MoE v1的方案,我们发现指令数据对MMLU、GSM8K、HumanEval这类任务的提升非常明显。虽然距离原始模型仍然有差距,但相较于小型MoE模型来说性能已经很突出了 相较于FFN MoE,Attention MoE在增加数据时的提升效果更明显:如下图ab所示,同样增加0.8B tokens,我们发现attention M...
LLaMA-MoE v2: Exploring Sparsity of LLaMA from Perspective ofMixture-of-Experts with Post-TrainingXiaoye Qu 1 , Daize Dong 1 , Xuyang Hu 1 , Tong Zhu 2 , Weigao Sun 1 , Yu Cheng 31 Shanghai AI Laboratory 2 Soochow University3 The Chinese University of Hong Kong{quxiaoye,dongdaize.d,h...
11B 模型可能是基于 Llama 3 8B 模型的改进版,而 90B 模型则是在 Llama 3 70B 模型的基础上发展而来的。 Ai2 推出了基于Qwen 272B 打造的 Molmo 72B,基于 Qwen 2 7B 的 Molmo-7B-D,即将问世的基于OLMo7B 版本的 Molmo-O,以及基于 OLMoE 并拥有 1B 活跃参数的 Molmo-E。 Molmo 系列模型采用 Apache ...
对于 MoE,这里就不多用篇幅解释了,不过作者在今年的一月研究盘点中介绍 Mixtral 8x7B 时详细介绍过 MoE,感兴趣的读者可访问《模型融合、混合专家、更小的 LLM,几篇论文看懂 2024 年 LLM 发展方向》。 Mixtral 一篇博客文章给出了一张很有趣的图,其中在两个轴上比较了 Mixtral 8x22B 与其它几个LLM:在常用...
通过以上方法和设置,我们成功构建并训练了LLaMA-MoE模型,并在多项任务中显著超越了同类模型。实验结果 LLaMA-MoE-3.5B在多个下游任务上的表现显著优于其他具有相似激活参数的开源模型,如Sheared-LLaMA和Open-LLaMA-3B-v2。具体来说,LLaMA-MoE-3.5B(4/16)在各种任务中的平均分数超过了最具竞争力的模型Sheared...
LLaMA-MoE-3.5B在多个下游任务上的表现显著优于其他具有相似激活参数的开源模型,如Sheared-LLaMA和Open-LLaMA-3B-v2。具体来说,LLaMA-MoE-3.5B(4/16)在各种任务中的平均分数超过了最具竞争力的模型Sheared-LLaMA 1.3分。此外,LLaMA-MoE-3.0B与Open-LLaMA-3B-v2表现相当。
Various models: LLaMA, LLaVA, Mistral, Mixtral-MoE, Qwen, Qwen2-VL, DeepSeek, Yi, Gemma, ChatGLM, Phi, etc. Integrated methods: (Continuous) pre-training, (multimodal) supervised fine-tuning, reward modeling, PPO, DPO, KTO, ORPO, etc. Scalable resources: 16-bit full-tuning, freeze-...
在包含所有训练域的SlimPajama子集上评估LLaMA-v2,以获得参考损失。 DynamicUniform :用均匀权重构造的Sheared-LLaMA动态采样。 数据过滤 由于训练预算有限,进一步探索了两种数据过滤策略以加快模型收敛。在CommonCrawl和C4数据集中过滤掉了50%的广告和15%的不流畅文本。 实验 训练数据 LLaMA-MoE-v1的训练数据集是Slim...
LLaMA-MoE-3.5B在多个下游任务上的表现显著优于其他具有相似激活参数的开源模型,如Sheared-LLaMA和Open-LLaMA-3B-v2。具体来说,LLaMA-MoE-3.5B(4/16)在各种任务中的平均分数超过了最具竞争力的模型Sheared-LLaMA 1.3分。此外,LLaMA-MoE-3.0B与Open-LLaMA-3B-v2表现相当。
Various models: LLaMA, LLaVA, Mistral, Mixtral-MoE, Qwen, Qwen2-VL, DeepSeek, Yi, Gemma, ChatGLM, Phi, etc. Integrated methods: (Continuous) pre-training, (multimodal) supervised fine-tuning, reward modeling, PPO, DPO, KTO, ORPO, etc. Scalable resources: 16-bit full-tuning, freeze-...