NCCL_IB_DISABLE 是否关闭RDMA通信,设置为1表示启用TCP通信(非RDMA),设置为0(推荐)表示启用RDMA通信。 NCCL_SOCKET_IFNAME 指定用于通信的IP接口,设置成主机的host网卡(如eth0),可通过ip a命令查找。 NCCL_IB_GID_INDEX 设置RDMA通信优先级,执行show_gids命令确认对应的RoCE网卡的gid index(...
换成NCCL_ALGO=Tree后, mpirun --allow-run-as-root --mca pml ob1 --mca btl tcp,self -mca btl_tcp_if_include enp218s0 -mca plm_rsh_args "-p 38888" --host 192.168.0.37,192.168.0.130 -x NCCL_DEBUG=INFO -x NCCL_IB_GID_INDEX=3 -x NCCL_IB_TC=128 -xNCCL_ALGO=Tree-x NCCL_IB...
-x NCCL_IB_GID_INDEX=3:这个选项设置了 InfiniBand 网络的 GID 索引为 3。 -x NCCL_IB_DISABLE=0:这个选项表示不禁用 InfiniBand 网络。 -x NCCL_SOCKET_IFNAME=eth0:这个选项指定了 NCCL 使用 eth0 网络接口进行通信。 -x NCCL_NET_GDR_LEVEL=2:这个选项设置了 GPU Direct RDMA 的级别为 2。 -x ...
NCCL_IB_TC=128 指定报文Traffic Class类似,以便使用pfc队列4。 NCCL_IB_HCA=mlx5 前缀匹配,指定需要使用的RoCE网卡。 NCCL_IB_GID_INDEX=3 默认值0,这里必须设置为3。0和1表示ipv6的。2和3才是ipv4。 2表示使用RoCE V1协议,3表示使用RoCE V2协议。所以我们这里要选3。 2.性能配置 在pfc流控参数设置好...
Q: 在使用SRIOV虚拟化RDMA网卡并映射到容器中后,NCCL可读到不属于自己的VF A: 在容器中预先使用show_gids 查询本机可用网卡,使用shell脚本写入NCCL_IB_HCA github.com/NVIDIA/nccl/ Q: 未设置gid,导致使用的gid错误 A: 使用show_gids 查询该通信域中可用gid,并将正确值写入NCCL_IB_GID_INDEX ...
NCCL_IB_GID_INDEX¶ (since 2.1.4) TheNCCL_IB_GID_INDEXvariable defines the Global ID index used in RoCE mode. See the InfiniBandshow_gidscommand in order to set this value. For more information, see the InfiniBand specification Volume 1 (https://www.infinibandta.org/ibta-specifications-do...
If the multi nodes support NVIDIA InfiniBand and encounter hanging issues during startup, consider adding the parameter `export NCCL_IB_GID_INDEX=3`. For more information, see [this](https://github.com/sgl-project/sglang/issues/3516#issuecomment-2668493307). ```bash # node 1 python3 -m ...
"NCCL_IB_GID_INDEX", "NCCL_IB_SL", "NCCL_IB_TC", "NCCL_IB_AR_THRESHOLD", "NCCL_IB_CUDA_SUPPORT", "NCCL_NET_GDR_LEVEL", "NCCL_NET_GDR_READ", "NCCL_SINGLE_RING_THRESHOLD", "NCCL_LL_THRESHOLD", "NCCL_TREE_THRESHOLD",
(stage->state == ncclIbCommStateSend) goto ib_send; NCCLCHECK(ncclIbInitVerbs(dev, ctx, &comm->verbs)) 初始化 init() 编译时加载: ncclResult_t wrap_ibv_symbols(void) { pthread_once(&initOnceControl, [](){ initResult = buildIbvSymbols(&ibvSymbols); }); return initResult; } nccl...
NCCL_IB_GID_INDEX 设置RDMA通信优先级 通过show_gids确认对应的IB网卡gid index NCCL_IB_DISABLE 是否关闭IB通信 设置成1来启用TCP通信,一般需要设置成0或者默认不动 NCCL_IB_HCA 环境中的IB网卡 例如export NCCL_IB_HCA=mlx5_2,mlx5_3,mlx5_4,mlx5_5,可以通过ibstat查看IB网卡名 NCCL_DEBUG 从NCCL显示...