export+nccl_ignore_disabled_p2p+1

2024-12-04 22:22:59

拼音 [ 拼音 ]

ModelScope中,我加了export NCCL_P2P_LEVEL=NVL 这句话以后报错...

这个错误可能是由于NCCL_P2P_LEVEL设置不正确导致的。你可以尝试将NCCL_P2P_LEVEL设置为0，然后重新运行...
CUDA_ERROR_TOO_MANY_PEERS after export NCCL_P2P_DISABLE=1...

Hi, I have a 10x Quadro RTX 8000 server and want to use all GPUs for a TensorFlow training job. I understand NCCL supports only up-to 8 GPU per server while NVSwitch is not available. After some search it seems setting NCCL_P2P_DISABLE=1...