(1)执行命令:cat /etc/hccn.conf ,无任何信息 (2)执行命令:bms-network_config (3)重新验证:hccn_tool -i 0 -ip -g
正常逻辑应该是从hccn_tool获取到npu的ip。 走到其他分支都属于异常情况了。 吴逸群 将任务状态从TODO 修改为DONE 2个月前 登录 后才可以发表评论 状态 DONE 负责人 吴逸群 项目 未立项任务 Pull Requests 未关联 关联的 Pull Requests 被合并后可能会关闭此 issue 预计工期 (小时) 开始日期 - 截止日...
<!DOCTYPE html> 工具介绍 适用场景分布式训练场景下,开发者可以通过此工具测试HCCL(Huawei Collective Communication Library)集合通信的功能正确性以及性能。 工具源码包获取安装完CANN Toolkit软件包后,HCCL性能测试工具源码存放${INSTALL_DIR}/tools/hccl_test路径
HCCL_RDMA_RETRY_CNT参数进行配置),可以通过查询故障管理框架包含时间的关键事件记录,比如网卡linkdown等;也可以根据重传超次(日志关键字errorcqe)的通信两端IP,通过HCCN Tool的查询指令确认端侧网卡linkdown的历史记录。
MindSpore distributed training launch helper utility that will generate hccl config file. hccl_tools.py This script is used to generate a rank_table_file for single server by using hccl_tool or read /etc/hccn.conf. Usage python hccl_tools.py --device_num "[0,8)" output: hccl_[device_...
对于全量Rank超时场景,最常见的原因为网络故障导致RoCE报文重传超次(时间和次数可以通过HCCL_RDMA_TIMEOUT、HCCL_RDMA_RETRY_CNT参数进行配置),可以通过查询故障管理框架包含时间的关键事件记录,比如网卡linkdown等;也可以根据重传超次(日志关键字error cqe)的通信两端IP,通过HCCN Tool的查询指令确认端侧网卡linkdown的历...
对于全量Rank超时场景,最常见的原因为网络故障导致RoCE报文重传超次(时间和次数可以通过HCCL_RDMA_TIMEOUT、HCCL_RDMA_RETRY_CNT参数进行配置),可以通过查询故障管理框架包含时间的关键事件记录,比如网卡linkdown等;也可以根据重传超次(日志关键字error cqe)的通信两端IP,通过HCCN Tool的查询指令确认端侧网卡linkdown的历...
如果各个rank的TLS情况不一致,可使用hccn_tool工具配置TLS,或者关闭所有rank的TLS功能。 关闭TLS功能命令: hccn_tool -i 0 -tls -s enable 0 hccn_tool -i 1 -tls -s enable 0 hccn_tool -i 2 -tls -s enable 0 hccn_tool -i 3 -tls -s enable 0 hccn_tool -i 4 -tls -s enable 0 hccn...
工具介绍 适用场景 分布式训练场景下,开发者可以通过此工具测试HCCL(Huawei Collective Communication Library)集合通信的功能正确性以及性能。 工具源码包获取 安装完CANN Toolkit软件包后,HCCL性能测试工具源码存放${INSTALL_DIR}/tools/hccl_test路径下,${INSTALL_D
[0, 1, 2, 3, 4, 5, 6, 7] /bin/sh: hccn_tool: command not found Failed to call hccn_tool, try to read /etc/hccn.conf instead Traceback (most recent call last): File "/root/llm/mind/mindformers/./mindformers/tools/hccl_tools.py", line 175, in <module> main() File "/...