llm+moe+知乎

2025-05-01 09:18:42

拼音 [ 拼音 ]

简拼 [ 简拼 ]

含义

一文详解 LLM & 推荐混合专家模型-MoE 发展史 - 知乎

MMOE(Multi-gate Mixture-of-Experts)是在 MOE 的基础上,使用了多个 Gate,对应多个任务,公式如下: \begin{gathered} f^k(x)=\sum_{i=1}^n g^k(x)_i f_i(x) \\ g^k(x)=\operatorname{Softmax}\left(W_{g k} x\right) \end{gathered} \\ 其中n 是专家数量, g^k 是代表第 k 个任务...
备忘:关于LLM中的MOE - 知乎

所以,含MOE的LLM,其实就是对普通transformer LLM 扩 FFN 数量而已。几个例子: 《deepseek-v3》《minimax-text-01》《llama-4》为啥在FFN处作MOE?结合这里聊一聊Transformer中的FFN-CSDN博客,大概可以说是,FFN处能储存知识能关注细节(想想transformer中,不就self-attn + FFN吗,不在FFN这里能去哪里)。因...
微软6页论文爆火:三进制LLM,真香!

DeepLearning.scala作者杨博表示：BitNet b1.58相比原版BitNet，最大的特点就是允许0参数。我觉得稍微修改一下量化函数，也许可以控制0参数的比例。当0参数的比例很大时，可以用稀疏格式存储权重，使得平均每个参数的显存占用甚至低于1比特。这就相当于权重级别的MoE了。我觉得比一般的MoE更优雅。与此同时，他也提出...
2024开年,看一看:大型语言模型(LLM)在过去一年多的发展!(按月总结...

本月OpenAI给了所有人一个春节大礼包,正式发布了「文本视频生成模型 Sora」,继 Runway、Pika、谷歌和 Meta 之后,OpenAI 终于加入视频生成领域的战争。同时「谷歌宣布推出 Gemini 1.5」,通过新的专家混合 (MoE) 架构使 Gemini 1.5 的训练和服务更加高效,可以支持100万上下文。斯坦福开源的机器人厨师迎来升级,「谷歌D...
MOE与MOT:提升LLM效能的关键策略比较-电子发烧友网

MoT 通过进行以下更改来解决 MoE 模型的问题: 混合来自不同示例的token,然后将其提供给专家;通过允许模型从所有token-专家组合中学习,这提高了训练稳定性和专家利用率。 token混合是一个完全可微的模型,这意味着它可以使用标准的基于梯度的方法进行训练。这避免了辅助损失或其他难以训练的技术的需要,从而更容易训练和...
现代LLM基本技术整理

Llama 3选择了一个标准的稠密Transformer模型架构,只进行了少量调整,而没有选择MOE。后训练方面,Llama 3采用了SFT、RS和DPO,即一套'相对简单'的过程,而不是更复杂的RLHF算法,因为后者往往稳定性较差且更难以扩展。这些都属于design choice。2,3章会详细介绍相关技术。
LLM推理到底需要什么样的芯片?

未来长远来看,MOE和KV稀疏化是加速AGI Scaling从算法层面最有效的途径,其实也是从粗放式逐渐过渡到精细化管理静态和动态权重,从而可以创造在芯片Scaling基础上进一步更快加速超长上下文和超大模型的低成本Scaling,而对于硬件的容量需求会进一步扩大,同时随着稀疏化程度提高,使得Memory Hierarchy可能重新变得在系统层级更有意义...
部署满血DeepSeek R1的避坑指南-vLLM 0.7.1,收藏这一篇就够了...

今天看到vLLM的朋友圈发布了DeepSeek R1的PP支持,立刻开始我的捣鼓之旅,假如我训练的超大MoE上线了,也得做好技术准备工作是不嘛。把踩坑经验给大家分享一下,希望能够相比于官方文档更白话一点。 Distributed Inference and Serving: https://docs.vllm.ai/en/latest/serving/distributed_serving.html#running-vllm...
分享有关于LLM lifelong learning的概念,... 来自华为云开发者...

分享有关于LLM lifelong learning的概念,同时也详细介绍了MoE的发展史。#华为云开发者联盟# #DTSE Tech Talk# #昇思MindSpore# http://t.cn/A6WpYRIv
awesome-LLM-resourses: 全世界最好的LLM资料总结 | Summary of...

git config --global user.name userName git config --global user.email userEmail 分支1 标签0 WangRongshengUpdate README.md33b42479天前 474 次提交提交 assets Add files via upload 12个月前 docs add kimi 3个月前 CODE_OF_CONDUCT.md

快搜汉语词典

llm+moe+知乎

拼音 [ 拼音 ]

简拼 [ 简拼 ]

含义

一文详解 LLM & 推荐混合专家模型-MoE 发展史 - 知乎

备忘:关于LLM中的MOE - 知乎

微软6页论文爆火:三进制LLM,真香!

2024开年,看一看:大型语言模型(LLM)在过去一年多的发展!(按月总结...

MOE与MOT:提升LLM效能的关键策略比较-电子发烧友网

现代LLM基本技术整理

LLM推理到底需要什么样的芯片?

部署满血DeepSeek R1的避坑指南-vLLM 0.7.1,收藏这一篇就够了...

分享有关于LLM lifelong learning的概念,... 来自华为云开发者...

awesome-LLM-resourses: 全世界最好的LLM资料总结 | Summary of...

缩写

今日热搜

上海网友集中晒蘑菇

近反义词

相关词语

相关搜索

快搜汉语词典

llm+moe+知乎

拼音 [ 拼音 ]

简拼 [ 简拼 ]

含义

一文详解 LLM & 推荐 混合专家模型-MoE 发展史 - 知乎

备忘:关于LLM中的MOE - 知乎

微软6页论文爆火:三进制LLM,真香!

2024开年,看一看:大型语言模型(LLM)在过去一年多的发展!(按月总结...

MOE与MOT:提升LLM效能的关键策略比较-电子发烧友网

现代LLM基本技术整理

LLM推理到底需要什么样的芯片?

部署满血DeepSeek R1的避坑指南-vLLM 0.7.1,收藏这一篇就够了...

分享有关于LLM lifelong learning的概念,... 来自华为云开发者...

awesome-LLM-resourses: 全世界最好的LLM资料总结 | Summary of...

缩写

今日热搜

上海网友集中晒蘑菇

近反义词

相关词语

相关搜索

一文详解 LLM & 推荐混合专家模型-MoE 发展史 - 知乎