训练作业的状态运行失败,查看训练作业的日志,存在NCCL的报错,例如NCCL timeout、RuntimeError: NCCL communicator was aborted on rank 7、NCCL WARN Bootstrap : no socket interface found或NCCL INFO Call to con
如果出现报错“NCCL timeout”或者“RuntimeError: NCCL communicator was aborted on rank 7”,则表示InfiniBand Verbs超时。单击右侧“重建”,重新创建训练作业,设置环境变量“NCCL_IB_TIMEOUT=22”,提交训练作业后等待作业完成。 如果出现报错“NCCL WARN Bootstrap : no socket interface found”或“NCCL INFO Cal...
检查环境变量:确保环境变量如NCCL_SOCKET_IFNAME、NCCL_IB_TIMEOUT等已正确设置,特别是在多机多卡训练中。 操作系统支持:注意NCCL在Windows系统上可能不支持,通常需要使用Gloo作为后端。 3. 根据报错信息,查找可能的解决方案 对于“Distributed package doesn't have NCCL built in”的错误: 如果你在Windows系统上运...
超时时间的计算公式为4.096微秒 * 2 ^ timeout,正确的值取决于网络的大小。增加该值可以在非常大的网络上提供帮助,例如,如果NCCL在调用ibv_poll_cq时出现错误12。 使用建议: 在大模型训练任务中设置成最大值22,可以减少不少nccl timeout异常。 NCCL_IB_RETRY_CNT 变量控制 InfiniBand 的重试次数。 使用建议 在...
NCCL_IB_RETRY_CNT=15 默认值7,可以适当调大,以规避偶尔出现的异常。 NCCL_IB_TIMEOUT=18 可选1-22,默认值18,2.14版本前默认14。好像我们主要调上个参数(RETRY次数),这个超时时间没怎么调,自己测试看看吧。 NCCL_IB_QPS_PER_CONNECTION=8 默认值1, 不少地方推荐4 ...
NCCL_IB_TIMEOUT 改变量用于控制InfiniBandVerbs超时。取值范围1-22。超时时间的计算公式为4.096微秒 * ...
NCCL_IB_TIMEOUT变量控制InfiniBand Verbs超时。 有关更多信息,请参阅InfiniBand文档。 The default value used by NCCL is 14. The value depends on the size of your InfiniBand network. NCCL使用的默认值是14。 该值取决于您的InfiniBand网络的大小。 NCCL_IB_CUDA_SUPPORT The NCCL_IB_CUDA_SUPPORT variable...
【摘要】 # 作用:出现异常可以启动设置成TRACE进行调试,但是会影响性能NCCL_DEBUG=INFO# 出现NCCL timeout 可以适当调大NCCL_IB_TIMEOUT=18NCCL_IB_RETRY_CNT=16# 请不要修改,ModelArts会提前预置好NCCL_IB_HCA=^mlx5_bond_0NCCL_SOCKET_IFNAME="=bond0,eth0,enp218s0,... ...
# export NCCL_IB_TIMEOUT=22# export NCCL_IB_GID_INDEX=3# export NCCL_IB_TC=128# export NCCL_IB_DISABLE=1deepspeed--master_addr10.255.19.82--master_port29500--hostfile=$hostfile fine-tune.py \--report_to"none"\--data_path"/data2/xinyuuliu/Baichuan2-main/fine-tune/data/全网评价总结...
self -mca btl_tcp_if_include enp218s0 -mca plm_rsh_args "-p 38888" --host 192.168.0.37,192.168.0.130 -x NCCL_DEBUG=INFO -x NCCL_IB_GID_INDEX=3 -x NCCL_IB_TC=128 -xNCCL_ALGO=Tree-x NCCL_IB_HCA=mlx5 -x NCCL_IB_TIMEOUT=18 -x NCCL_SOCKET_IFNAME=enp218s0 -x LD_LIBRARY_...