仅需几行代码张量并行训练任意模型! | 周末源码编译了pytorch最新版代码,torch2.3。其中ColwiseParallel和RowwiseParallel api可以让你非常简洁的写出模型张量并行训练代码,我试着写了llama2模型的切分(如图一),目前看loss完全能对齐(见图二)。 据文档来看,pytorch也在性能上下了一番功夫。这两个接口底层使用了Dtensor...