NCCL_IB_DISABLE设置为0,意味着NCCL被允许使用InfiniBand。 NCCL_SOCKET_IFNAME设置为eth0,指定NCCL应使用名为eth0的网络接口进行通信。 NCCL INFO NET/Socket : Using [0]eth0:10.233.90.231<0> NCCL INFO Using network Socket 由于没有找到IB设备,NCCL转而使用TCP/IP(Socket)网络,并通过接口eth0进行通信。
设置NCCL_IB_DISABLE=1时本机信息如下: <systemversion="1"><cpunumaid="1"affinity="ffff,fffff000,000000ff,fffffff0,00000000"arch="x86_64"vendor="GenuineIntel"familyid="6"modelid="106"><pcibusid="0000:ca:00.0"class="0x060400"vendor="0x11f8"device="0x4000"subsystem_vendor="0x11f8"subsy...
NCCL_IB_DISABLE 是否关闭RDMA通信,设置为1表示启用TCP通信(非RDMA),设置为0(推荐)表示启用RDMA通信。 NCCL_SOCKET_IFNAME 指定用于通信的IP接口,设置成主机的host网卡(如eth0),可通过ip a命令查找。 NCCL_IB_GID_INDEX 设置RDMA通信优先级,执行show_gids命令确认对应的RoCE网卡的gid index(...
# export NCCL_IB_TIMEOUT=22 # export NCCL_IB_GID_INDEX=3 # export NCCL_IB_TC=128 # export NCCL_IB_DISABLE=1 deepspeed --master_addr 10.255.19.82 --master_port 29500 --hostfile=$hostfile fine-tune.py \ --report_to "none" \ --data_path "/data2/xinyuuliu/Baichuan2-main/fine-tu...
ray start --address='192.168.1.166:6379' --num-gpus=1 import ray import ray.dag import torch import os os.environ["NCCL_DEBUG"] = "INFO" os.environ["NCCL_SOCKET_IFNAME"] = "eth0" os.environ["NCCL_IB_DISABLE"] = "1" os.environ["NCCL_P2P_DISABLE"] = "1" ray.init(address="...
首先执行ncclNetIb的init函数,就是ncclIbInit。ncclResult_t ncclIbInit(ncclDebugLogger_t logFunction) { static int shownIbHcaEnv = 0; if(wrap_ibv_symbols() != ncclSuccess) { return ncclInternalError; } if (ncclParamIbDisable()) return ncclInternalError; if (ncclNIbDevs == -1) { ...
IFNAME=bond0 #指定了 NCCL 使用的网络接口 -x UCX_TLS=sm,ud #调整MPI使用的传输模式 -x LD_LIBRARY_PATH -x PATH -x NCCL_IBEXT_DISABLE=1 #如使用RoCE网络,此处应禁用 -x NCCL_ALGO=ring /root/nccl-tests/build/all_reduce_perf -b 512 -e 18G -f 2 -g 1 #执行all ...
-x NCCL_IBEXT_DISABLE=1 #如使用RoCE网络,此处应禁用 -x NCCL_ALGO=ring /root/nccl-tests/build/all_reduce_perf -b 512 -e 18G -f 2 -g 1 #执行all reduce操作 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. ...
-x NCCL_IB_DISABLE=0:这个选项表示不禁用 InfiniBand 网络。 -x NCCL_SOCKET_IFNAME=eth0:这个选项指定了 NCCL 使用 eth0 网络接口进行通信。 -x NCCL_NET_GDR_LEVEL=2:这个选项设置了 GPU Direct RDMA 的级别为 2。 -x NCCL_IB_QPS_PER_CONNECTION=4:这个选项设置了每个连接的队列对数为 4。 -x NCC...
最后实测,在运行命令前面加上如下命令后就可以正常跑了 exportNCCL_IB_DISABLE=1;exportNCCL_P2P_DISABLE=1; NCCL_DEBUG=INFO python main.py ... __EOF__ 本文作者:marsggbo 本文链接:https://www.cnblogs.com/marsggbo/p/16556963.html 关于博主:评论和私信会在第一时间回复。或者直接私信我。