2月25日,DeepSeek在“开源周”的第二日开源了DeepEP通信库。DeepSeek表示,这是第一个用于MoE(专家)模型训练和推理的开源EP通信库。“高效、优化的全员沟通;节点内和节点间均支持NVLink和RDMA(远程直接内存访问,一种通信技术);用于训练和推理预填充的高吞吐量内核;用于推理解码的低延迟内核;原生FP8调度支...
DeepEP是DeepSeek开源的一款专为AI大模型设计的通信优化工具,相当于给AI训练装上了“智能交通系统”。它的核心任务是解决大模型训练时GPU之间的数据传输拥堵问题,特别是针对需要调动多个专家模块协作的MoE(混合专家)模型。DeepEP有三大核心技术亮点。NVLink高速通道优化:同一服务器内的GPU通信效率提升3倍,就像把...
DeepSeek开源周day one的FlashMLA让推理训练更快了,今天的DeepEP直接加速MoE通信,接下来DeepSeek可能继续覆盖训练、数据处理或部署的各个环节,继续让开源技术惠及全世界。
而今天(25日),DeepSeek又甩出了一张王炸,官宣了今日开源代码库为DeepEP,DeepEP是首个用于MoE模型训练和推理的开源EP通信库。因为直接解决了AI算力焦虑,让圈内人士集体“炸锅”,其重要性可见一斑。DeepSeek在官推上介绍,很高兴介绍DeepEP第一个用于MoE模型训练和推理的开源EP通信库。据介绍,DeepEP是一...
今天,DeepSeek 在继 FlashMLA 之后,推出了第二个 OpenSourceWeek 开源项目——DeepEP。 作为首个专为MoE(Mixture-of-Experts)训练与推理设计的开源 EP 通信库,DeepEP 在EP(Expert Parallelism)领域迈出了重要一步,旨在为 MoE 模型提供低时延、高带宽、高吞吐的卡间和节点间通信能力。
Deepseek-V3/R1采用的是分离式架构+DP+EP,每层有256个专家和32个冗余专家,具体配置如下: Prefill:路由专家 EP32、MLA和共享专家 DP32,一个部署单元是 4 节点,32 个冗余路由专家,每张卡 9 个路由专家和 1 个共享专家 Decode:路由专家 EP144、MLA 和共享专家 DP144,一个部署单元是 18 节点,32 个冗余路由...
今天DeepSeek 继续开源底层架构的创新,今天开源的项目是首个用于 MoE 模型训练和推理的 EP 通信库 DeepEP。 在分布式系统中(如多 GPU 训练环境),所有处理单元之间需要高效地传递数据。在 MoE 中,这点尤为重要,因为不同「专家」需要频繁...
鞭牛士 2月25日消息,DeepSeek第二天的开源项目DeepEP正式发布。DeepSeek官方在X平台发文称,很高兴向大家介绍DeepEP——首个专为MoE(专家混合)模型训练和推理打造的开源EP通信库。DeepEP可做到:高效优化的全对全(all-to-all)通信;支持节点内(intranode)和节点间(internode)通信,兼容 NVLink 和 RDMA...
作为国内首批实现 PD(prefill-decode)分离推理落地的团队,PPIO 推理加速团队观察到:EP 架构正以惊人的效率重构推理性能边界——DeepSeek V3 在 8 卡 H100 集群中实现 22G 专家参数的智能调度,使单卡批处理量提升 8 倍。但与此同时,跨节点通信的魔咒、PD 分离带来的范式革命、Dense 模型的进化反扑,都在重塑这场...
1. 高效通信架构:DeepEP支持全对全通信模式的优化,实现了节点内和节点间的NVLink与RDMA互联,显著提升了数据传输的效率。2. 多精度与调度优化:DeepEP原生支持FP8低精度运算调度,有效降低计算资源的消耗。3. 重性能内核:高吞吐量内核设计,适用于训练和推理预填充场景,最大化数据处理能力。4. 低延迟内核:针对...