NCCL_IB_RETRY_CNT=15 默认值7,可以适当调大,以规避偶尔出现的异常。 NCCL_IB_TIMEOUT=18 可选1-22,默认值18,2.14版本前默认14。好像我们主要调上个参数(RETRY次数),这个超时时间没怎么调,自己测试看看吧。 NCCL_IB_QPS_PER_CONNECTION=8 默认值1, 不少地方推荐4 NCCL_IB_SPLIT_DATA_ON_QPS=0 默认1 ...
【摘要】 # 作用:出现异常可以启动设置成TRACE进行调试,但是会影响性能NCCL_DEBUG=INFO# 出现NCCL timeout 可以适当调大NCCL_IB_TIMEOUT=18NCCL_IB_RETRY_CNT=16# 请不要修改,ModelArts会提前预置好NCCL_IB_HCA=^mlx5_bond_0NCCL_SOCKET_IFNAME="=bond0,eth0,enp218s0,... # 作用:出现异常可以启动设置成...
在大模型训练任务中设置成最大值22,可以减少不少nccl timeout异常。NCCL_IB_RETRY_CNT 变量控制 Infin...
NCCL_IB_RETRY_CNT¶ (since 2.1.15) TheNCCL_IB_RETRY_CNTvariable controls the InfiniBand retry count. For more information, see section 12.7.38 of the InfiniBand specification Volume 1 (https://www.infinibandta.org/ibta-specifications-download). ...
retry_cnt = ncclParamIbRetryCnt(); qpAttr.rnr_retry = 7; qpAttr.sq_psn = 0; qpAttr.max_rd_atomic = 1; NCCLCHECK(wrap_ibv_modify_qp(qp, &qpAttr, IBV_QP_STATE | IBV_QP_TIMEOUT | IBV_QP_RETRY_CNT | IBV_QP_RNR_RETRY | IBV_QP_SQ_PSN | IBV_QP_MAX_QP_RD_ATOMIC)); ...
retry_cnt = ncclParamIbRetryCnt(); qpAttr.rnr_retry = 7; qpAttr.sq_psn = 0; qpAttr.max_rd_atomic = 1; NCCLCHECK(wrap_ibv_modify_qp(qp, &qpAttr, IBV_QP_STATE | IBV_QP_TIMEOUT | IBV_QP_RETRY_CNT | IBV_QP_RNR_RETRY | IBV_QP_SQ_PSN | IBV_QP_MAX_QP_RD_ATOMIC)); ...
NCCL_IB_DISABLE Values accepted NCCL_IB_HCA Values accepted NCCL_IB_TIMEOUT Values accepted NCCL_IB_RETRY_CNT Values accepted NCCL_IB_GID_INDEX Values accepted NCCL_IB_SL Values accepted NCCL_IB_TC Values accepted NCCL_IB_AR_THRESHOLD
export NCCL_IB_TIMEOUT=23 export NCCL_IB_RETRY_CNT=7 按Esc退出编辑模式,输入:wq并按下Enter键,保存并退出文件。 执行source /etc/profile命令,使配置更新生效。 Ubuntu 20.04 若您选用Ubuntu 20.04创建高性能计算GPU型实例,除上述操作外,您还需要额外进行以下操作。 运行以下脚本,初始化rdma-agent服务。 #...
cc 包装ibv_modify_qp(以修改QP状态为例的调用栈如下): ncclResult_t wrap_ibv_modify_qp(struct ibv_qp* qp, struct ibv_qp_attr* attr, int attr_mask) { char qpMsg[1024]; int ret = 0, attempts = 0; int maxCnt = (int)ncclParamIbMQpRetryCnt() + 1; // number of attempts =...
# nccl version: 22.3 NCCL_IB_TIMEOUT=11 \ NCCL_DEBUG=INFO \ NCCL_DEBUG_FILE=/data1/nccl_debug_%h.%p \ NCCL_IB_CUDA_SUPPORT=1 \ NCCL_IBEXT_DISABLE=1 \ NCCL_DEBUG_SUBSYS=ALL \ NCCL_IB_DISABLE=0 \ NCCL_NVLS_ENABLE=0 \ NCCL_IB_RETRY_CNT=7 \ GLOO_SOCKET_IFNAME=eth1x \ NCCL...