为了在Fugaku上训练大型语言模型,研究人员开发了分布式训练方法,包括将深度学习框架Megatron-DeepSpeed移植到Fugaku,以优化Fugaku上变形金刚的性能。他们通过结合三种并行化技术加速了Transformers的密集矩阵乘法库,优化了Fugaku的通信性能,并加速了Tofu互连D上的集体通信库。 Fugaku-LLM 有 130 亿个参数(2)并且比日本广泛开...