Megatron-LM是由NVIDIA应用深度学习研究团队研发的大规模Transformer语言模型训练框架。它支持模型并行(张量并行、序列并行与流水并行)与多节点预训练(multi-node pre-training)。这意味着Megatron-LM可以处理大规模的模型,并支持多节点训练,进一步提高模型的准确性和效率。目前,Megatron-LM已经支持BERT、GPT和T5模型等多种...