这个错误可能是由于NCCL_P2P_LEVEL设置不正确导致的。你可以尝试将NCCL_P2P_LEVEL设置为0,然后重新运行...
>我们推荐使用 vLLM 0.4.2,因为 0.4.3+ 版本目前需要关闭 P2P 通信 `export NCCL_P2P_DISABLE=1` 或者通过 Gloo 进行权重同步(`--vllm_sync_backend gloo`)。 >我们也提供了 [Dockerfiles for vLLM](./dockerfile/) 和[Nvidia-Docker 一键安装脚本](./examples/scripts/nvidia_docker_install.sh)。 #...
Hi, I have a 10x Quadro RTX 8000 server and want to use all GPUs for a TensorFlow training job. I understand NCCL supports only up-to 8 GPU per server while NVSwitch is not available. After some search it seems setting NCCL_P2P_DISABLE=1...