model_parallel_size+deepspeed

2024-12-21 10:38:54

拼音 [ 拼音 ]

...zero3 enabled · Issue #3889 · microsoft/DeepSpeed...

DeepSpeed does not implement model parallelism but is compatible with existing forms like tensor slicing and pipeline parallelism. However, zero stage 3 should reduce per-gpu memory consumption of model parameters and optimizer state. Offloading should also reduce gpu memory consumption by moving ...