NCCL_IB_TC=128 指定报文Traffic Class类似,以便使用pfc队列4。 NCCL_IB_HCA=mlx5 前缀匹配,指定需要使用的RoCE网卡。 NCCL_IB_GID_INDEX=3 默认值0,这里必须设置为3。0和1表示ipv6的。2和3才是ipv4。 2表示使用RoCE V1协议,3表示使用RoCE V2协议。所以我们这里要选3。 2.性能配置 在pfc流控参数设置好...
NCCL_IB_DISABLE 是否关闭RDMA通信,设置为1表示启用TCP通信(非RDMA),设置为0(推荐)表示启用RDMA通信。 NCCL_SOCKET_IFNAME 指定用于通信的IP接口,设置成主机的host网卡(如eth0),可通过ip a命令查找。 NCCL_IB_GID_INDEX 设置RDMA通信优先级,执行show_gids命令确认对应的RoCE网卡的gid index(...
-x NCCL_DEBUG=INFO 这个选项设置了 NCCL 的调试级别为 INFO -x NCCL_IB_GID_INDEX=3:这个选项设置了 InfiniBand 网络的 GID 索引为 3 -x NCCL_IB_DISABLE=0:这个选项表示不禁用 InfiniBand 网络。 -x NCCL_SOCKET_IFNAME=eth0:这个选项指定了 NCCL 使用eth0 网络接口进行通信。 -x NCCL_NET_GDR_LEVE...
-x NCCL_SOCKET_NTHREADS=16-mca btl_tcp_if_include bond0 -mca pml ^ucx -mca btl ^openib #指定BTL的value为'^openib'-x NCCL_DEBUG=INFO #NCCL的调试级别为info -x NCCL_IB_GID_INDEX=3-x NCCL_IB_HCA=mlx5_0:1,mlx5_2:1,mlx5_3:1,mlx5_4:1-x NCCL_SOCKET_IFNAME=bond0 #指定了 ...
# export NCCL_IB_GID_INDEX=3 # export NCCL_IB_TC=128 # export NCCL_IB_DISABLE=1 deepspeed--master_addr10.255.19.82--master_port29500--hostfile=$hostfile fine-tune.py--report_to"none"--data_path"/data2/xinyuuliu/Baichuan2-main/fine-tune/data/全网评价总结训练数据.json"--model_name_or...
# export NCCL_IB_TIMEOUT=22# export NCCL_IB_GID_INDEX=3# export NCCL_IB_TC=128# export NCCL_IB_DISABLE=1deepspeed--master_addr10.255.19.82--master_port29500--hostfile=$hostfile fine-tune.py \--report_to"none"\--data_path"/data2/xinyuuliu/Baichuan2-main/fine-tune/data/全网评价总结...
等于总GPU数量 -x NCCL_SOCKET_NTHREADS=16 -mca btl_tcp_if_include bond0 -mca pml ^ucx -mca btl ^openib #指定BTL的value为'^openib' -x NCCL_DEBUG=INFO #NCCL的调试级别为info -x NCCL_IB_GID_INDEX=3 -x NCCL_IB_HCA=mlx5_0:1,mlx5_2:1,mlx5_3:1,mlx5_4:1 ...
self -mca btl_tcp_if_include enp218s0 -mca plm_rsh_args "-p 38888" --host 192.168.0.37,192.168.0.130 -x NCCL_DEBUG=INFO -x NCCL_IB_GID_INDEX=3 -x NCCL_IB_TC=128 -xNCCL_ALGO=Tree-x NCCL_IB_HCA=mlx5 -x NCCL_IB_TIMEOUT=18 -x NCCL_SOCKET_IFNAME=enp218s0 -x LD_LIBRARY_...
-x NCCL_IB_GID_INDEX=3 -x NCCL_IB_HCA=mlx5_0:1,mlx5_2:1,mlx5_3:1,mlx5_4:1 -x NCCL_SOCKET_IFNAME=bond0 #指定了 NCCL 使用的网络接口 -x UCX_TLS=sm,ud #调整MPI使用的传输模式 -x LD_LIBRARY_PATH -x PATH -x NCCL_IBEXT_DISABLE=1 #如使用RoCE网络,此处应禁用 ...
-x NCCL_IB_GID_INDEX=3 -x NCCL_IB_HCA=mlx5_0:1,mlx5_2:1,mlx5_3:1,mlx5_4:1 -x NCCL_SOCKET_IFNAME=bond0 #指定了 NCCL 使用的网络接口 -x UCX_TLS=sm,ud #调整MPI使用的传输模式 -x LD_LIBRARY_PATH -x PATH -x NCCL_IBEXT_DISABLE=1 #如使用RoCE网络,此处应禁用 ...