Megatron-LM是nvidia推出的针对大规模语言模型训练的分布式框架,专门针对Transformer结构优化了张量并行策略,可以直接训练Bert、GPT等模型 本章主要参考《如何使用 Megatron-LM 训练语言模型》,以一个简单的Demo来介绍Megatron-LM的使用方法,下一章再详细介绍张量并行原理,并尝试手动实现张量并行 Megatron-LM使用 数据下载到...