[一]中,我们使用Megatron-LM跑通了gpt2模型,在 [二]中了解了Megatron-LM的一些重要初始化参数,在 [三]中了解了GPT模型的创建过程。下面我们来看一下Megatron-LM如何训练一个GPT2模型,包括计算过程和通信过程等。 整个程序中,if-else逻辑走向以gpt2的实际走向为准,并行参数设置为2tp, 2pp, 2dp,实验机为8卡A...
Megatron源码解析(overview版) 所谓简单三步就是: 数据并行, 流水并行, 张量并行 这里将简单理清Megatron实现数据并行, 流水并行, 张量并行的整体逻辑, 但talk is cheap, 更详细的代码细节可以看完本文后分模块再去深究。 数据并行: 分布式文件/数据系统 流水并行: P2P通信 张量并行: 人工算子拆分 ...