MMOE(Multi-gate Mixture-of-Experts)是在 MOE 的基础上,使用了多个 Gate,对应多个任务,公式如下: \begin{gathered} f^k(x)=\sum_{i=1}^n g^k(x)_i f_i(x) \\ g^k(x)=\operatorname{Softmax}\left(W_{g k} x\right) \end{gathered} \\ 其中n 是专家数量, g^k 是代表第 k 个任务...
所以,含MOE的LLM,其实就是对普通transformer LLM 扩 FFN 数量而已。 几个例子: 《deepseek-v3》 《minimax-text-01》 《llama-4》 为啥在FFN处作MOE?结合这里 聊一聊Transformer中的FFN-CSDN博客,大概可以说是,FFN处能储存知识能关注细节(想想transformer中,不就self-attn + FFN吗,不在FFN这里能去哪里)。因...
DeepLearning.scala作者杨博表示:BitNet b1.58相比原版BitNet,最大的特点就是允许0参数。我觉得稍微修改一下量化函数,也许可以控制0参数的比例。当0参数的比例很大时,可以用稀疏格式存储权重,使得平均每个参数的显存占用甚至低于1比特。这就相当于权重级别的MoE了。我觉得比一般的MoE更优雅。与此同时,他也提出...
本月OpenAI给了所有人一个春节大礼包,正式发布了「文本视频生成模型 Sora」,继 Runway、Pika、谷歌和 Meta 之后,OpenAI 终于加入视频生成领域的战争。同时「谷歌宣布推出 Gemini 1.5」,通过新的专家混合 (MoE) 架构使 Gemini 1.5 的训练和服务更加高效,可以支持100万上下文。 斯坦福开源的机器人厨师迎来升级,「谷歌D...
MoT 通过进行以下更改来解决 MoE 模型的问题: 混合来自不同示例的token,然后将其提供给专家;通过允许模型从所有token-专家组合中学习,这提高了训练稳定性和专家利用率。 token混合是一个完全可微的模型,这意味着它可以使用标准的基于梯度的方法进行训练。这避免了辅助损失或其他难以训练的技术的需要,从而更容易训练和...
Llama 3选择了一个标准的稠密Transformer模型架构,只进行了少量调整,而没有选择MOE。后训练方面,Llama 3采用了SFT、RS和DPO,即一套'相对简单'的过程,而不是更复杂的RLHF算法,因为后者往往稳定性较差且更难以扩展。这些都属于design choice。2,3章会详细介绍相关技术。
未来长远来看,MOE和KV稀疏化是加速AGI Scaling从算法层面最有效的途径,其实也是从粗放式逐渐过渡到精细化管理静态和动态权重,从而可以创造在芯片Scaling基础上进一步更快加速超长上下文和超大模型的低成本Scaling,而对于硬件的容量需求会进一步扩大,同时随着稀疏化程度提高,使得Memory Hierarchy可能重新变得在系统层级更有意义...
今天看到vLLM的朋友圈发布了DeepSeek R1的PP支持,立刻开始我的捣鼓之旅,假如我训练的超大MoE上线了,也得做好技术准备工作是不嘛。把踩坑经验给大家分享一下,希望能够相比于官方文档更白话一点。 Distributed Inference and Serving: https://docs.vllm.ai/en/latest/serving/distributed_serving.html#running-vllm...
分享有关于LLM lifelong learning的概念,同时也详细介绍了MoE的发展史。#华为云开发者联盟# #DTSE Tech Talk# #昇思MindSpore# http://t.cn/A6WpYRIv
git config --global user.name userName git config --global user.email userEmail 分支1 标签0 WangRongshengUpdate README.md33b42479天前 474 次提交 提交 assets Add files via upload 12个月前 docs add kimi 3个月前 CODE_OF_CONDUCT.md