abstract:我们通过将模型图划分为$k$个阶段并最小化瓶颈阶段(包括通信)的运行时间来优化深度神经网络(DNN)推理的流水线并行性。我们设计了实用的算法,这个NP难的问题,并表明他们在实践中几乎是最优的,通过比较强的下限通过新的混合整数规划(MIP)配方。我们将这些算法和下界方法应用于生产模型,以实现与标准组合下界相...
成本效益:与 DeepSeek 67B 相比,DeepSeek-V2 在节约训练成本、推理的 KV Cache 以及提高最大吞吐方面取得了显著进步35。高效训练:DeepSeek-V2 使用了内部开发的 HAI-LLM 框架进行训练,实现了高效的流水线并行和专家并行,提升了训练效率5。长上下文扩展:DeepSeek-V2 支持长达 128K 的上下文长度,有助于处理需要...