init_hccl() RuntimeError: mindspore/ccsrc/plugin/device/ascend/hal/device/ascend_kernel_runtime.cc:358 Init] Ascend error occurred, error message: EI0003: In [HcomInitByFile], value [/autotest/test_task/rank_table_8pcs.json] of parameter [rankTablePath] is invalid. Tips: please check r...
ZPaC:master-iter-4-showcase-comm-initMindSpore:master ZPaC创建于 2024-12-13 17:14 克隆/下载 What type of PR is this? /kind feature What does this PR do / why do we need it: 在超大规模集群下,以某现场1.6万卡为例,HCCL全局通信域初始化接口调用耗时会在1-2分钟,占用了10%左右的MindSpore输...
Init 功能说明 Socket初始化。 函数原型 HcclResult Init() 参数说明 无。 返回值 HcclResult:接口成功返回HCCL_SUCCESS。其他失败。 约束说明 无 Loading... 跳转 举报成功 我们将于2个工作日内通过站内信反馈结果给你! 请认真填写举报原因,尽可能描述详细。
wide_deep ps 模式 ascend 910A 8卡在加上export MS_HCCL_CM_INIT=1后训练失败 Environment / 环境信息 (Mandatory / 必填) Hardware Environment(Ascend/GPU/CPU) / 硬件环境: Please delete the backend not involved / 请删除不涉及的后端: /device ascend ...
如图所示,从上往下分别是MindSpore报错信息为Init_hccl的日志,需要检差rank_table_8pcs.json的具体信息,查看rank_table_8pcs.json,发现rank_table_8pcs.json中多配置了device_id=8的id,所以导致rank_table_8pcs.json不可用。 解决方案:需要将其删除。
HcclDispatcherInit 功能说明 初始化dispatcher。 函数原型 HcclResult HcclDispatcherInit(DispatcherType type, const s32 deviceLogicId, const std::shared_ptr<hccl::ProfilerManager> &profilerManager, HcclDispatcher *dispatcher) 参数说明 参数名 输入/输出 描述 DispatcherType type 输入 dispatcher 类型 co...