原文链接:详解MegatronLM序列模型并行训练(Sequence Parallel) 1. 背景介绍 MegatronLM的第三篇论文【Reducing Activation Recomputation in Large Transformer Models】是2022年出的。在大模型训练过程中显存占用过大往往成为瓶颈,一般会通过recomputation重计算的方式降低显存占用,但会带来额外的计算代价。这篇论文提出了两...
Megatron Sequence Parallelism:本质是想通过降低单卡激活值大小的方式,尽可能多保存激活值,少做重计算,以此提升整体训练速度,一般和它家的tp配套使用。 DeepSpeed Ulysses:我们知道ds家的zero是模型并行的形式,数据并行的本质。在这个情况下,单张卡是完整地做一条序列的MHA过程的,序列长度较长时,就会对单卡显存产生压...
Megatron Sequence Parallelism:本质是想通过降低单卡激活值大小的方式,尽可能多保存激活值,少做重计算,以此提升整体训练速度,一般和它家的 tp 配套使用。 DeepSpeed Ulysses:我们知道 ds 家的 zero 是模型并行的形式,数据并行的本质。在这个情况下,单张卡是完整地做一条序列的 MHA 过程的,序列长度较长时,就会对单...
bias:Optional[torch.Tensor],gradient_accumulation_fusion:bool,async_grad_allreduce:bool,sequence_parallel_enabled:bool,)->torch.Tensor:"""带有反向传播的异步通信和梯度累积融合的线性层实现.此函数提供了一个选项,可以将反向传播计算的结果累积到一个现有的梯度缓冲区中,...
Megatron-Core MoE支持专家并行(Expert Parallel),这是一种专门为MoE模型设计的并行方法。在这种并行化策略中,不同的 Rank 负责处理其中一个或多个专家的计算。 此外,Megatron-Core MoE还支持3D并行(Data Parallel, Tensor Parallel, Pipeline Parallel, Sequence Parallel)。对于更大的MoE模型, Megatron-Core MoE也支...
Megatron-Core MoE支持专家并行(Expert Parallel),这是一种专门为MoE模型设计的并行方法。在这种并行化策略中,不同的 Rank 负责处理其中一个或多个专家的计算。 此外,Megatron-Core MoE还支持3D并行(Data Parallel, Tensor Parallel, Pipeline Parallel, Sequence Parallel)。对于更大的MoE模型, Megatron-Core MoE也支...
序列并行技术(Sequence Parallel):一个Transformer层内的dropout和layer-norm等部分参数切分到不同GPU上,从而支持训练更大的模型。 模型并行技术(Model Parallel):在多个GPU上存放一套模型参数的不同分片,从而支持训练更大的模型。 流水并行技术(Pipeline Parallel):模型内不同Transformer层切分到不同的GPU上; ...
Megatron-LM 中提供了张量并行(Tensor Parallel,TP,把大乘法分配到多张卡并行计算)、流水线并行(Pipeline Parallel,PP,把模型不同层分配到不同卡处理)、序列并行(Sequence Parallel, SP,序列的不同部分由不同卡处理,节约显存)、DistributedOptimizer 优化(类似 DeepSpeed Zero Stage-2,切分梯度和优化器参数...
Megatron-LM 中提供了张量并行(Tensor Parallel,TP,把大乘法分配到多张卡并行计算)、流水线并行(Pipeline Parallel,PP,把模型不同层分配到不同卡处理)、序列并行(Sequence Parallel, SP,序列的不同部分由不同卡处理,节约显存)、DistributedOptimizer 优化(类似 DeepSpeed Zero Stage-2,切分梯度和优化器参数至所有计算...
张量并行(Tensor-Parallel,TP)中通信与计算的重叠 如上图,当使用序列并行激活切分(sequence-parallel activation sharding)时,张量并行需要引入额外的Reduce-Scatter(图中绿色RS部分)以及All-Gather(图中绿色AG部分)通信。对于那些无计算依赖的TP通信(即黄色框内的部分),Megatron默认采用批式方法对其进行重叠,而对于有计...