流水线性并行和张量并行都是对模型本身进行划分,目的是利用有限的单卡显存训练更大的模型。简单来说,流水线并行水平划分模型,即按照层对模型进行划分;张量并行则是垂直划分模型。3D并行则是将流行线并行、张量并行和数据并行同时应用到模型训练中。 一、流水线并行 流水线并行的目标是训练更大的模型。本小节先介绍符...
简单来说,流水线并行水平划分模型,即按照层对模型进行划分;张量并行则是垂直划分模型。3D并行则是将流行线并行、张量并行和数据并行同时应用到模型训练中。 一、流水线并行 流水线并行的目标是训练更大的模型。本小节先介绍符合直觉的朴素层并行方法,并分析其局限性。然后,介绍流水线并行算法GPipe和PipeDream。 1. ...
流水线并行主要通过水平划分模型,按照层对模型进行划分,以利用单个GPU的显存训练更大的模型。而张量并行则是垂直划分模型,主要针对Transformer中的全连接层和注意力机制进行优化,降低对单卡显存的需求。同时,张量并行分为1D张量并行,包括列并行和行并行,以及2D和2.5D张量并行,分别针对激活的划分和矩阵...