HCCL_RDMA_RETRY_CNT参数进行配置),可以通过查询故障管理框架包含时间的关键事件记录,比如网卡linkdown等;也可以根据重传超次(日志关键字errorcqe)的通信两端IP,通过HCCN Tool的查询指令确认端侧网卡linkdown的历史记录。
HCCL提供了Mesh、Ring、Recursive Halving-Doubling(RHD)、NHR(Nonuniform Hierarchical Ring)、NB(Nonuniform Bruck)、Pipeline和Pairwise几种拓扑算法用于Server内和Server间的集合通信。HCCL会根据服务器内、服务器间的基础拓扑,自动选择合适的通信算法。 Mesh算法是Server内通信算法,为FullMesh互联拓扑内的基础算法,任意...
华为集合通信库(Huawei Collective Communication Library,简称HCCL)是基于昇腾AI处理器的高性能集合通信库,提供单机多卡以及多机多卡间的数据并行、模型并行集合通信方案。 HCCL的软件架构如下图所示,分为“通信框架”、“通信算法”与“通信平台”三个模块,本源码仓中包含了其中紫色底纹所示的“通信框架”与“通信算法...
集合通信库( Huawei Collective Communication Library ,简称HCCL)是基于昇腾硬件的高性能集合通信库,提供单机多卡以及多机多卡间的数据并行、模型并行集合通信方案。HCCL支持AllReduce、Broadcast、Allgather、ReduceScatter、AlltoAll等通信原语,Ring、Mesh、HD等通信算法,在HCCS、RoCE和PCIe高速链路实现集合通信。 立即下载获...
HCCL系列之2-通信概念1 通信域、子通信域 集合通信发生在一组通信对象上(比如一个NPU就是一个通信对象)。通信域是集合通信算子执行的上下文,管理对应的通信对象和通信所需的资源。通信域中的每个通信对象称为一个Rank。通信域是HCCL层面的概念,子通信域是算法库软件实现中引入的概念。集合通信执行的拓扑通常是一...
HCCL(Huawei Collective Communication Library)是基于昇腾AI处理器的高性能集合通信库,其主要功能与作用与Nvidia的NCCL库相似,主要用于集合通信,CANN库种自带一套测试工具用以分析集合通信性能。 1.1 编译环境配置 前置环境配置阶段请参考Ascend上创建Docker,后续的所有流程均需要在具备HCCL硬件的平台上实现,需要注意的是,...
Hccl为华为集合通信库,主要对外提供了集合通信原语接口(以下统称为Prepare接口),对标NVidia的NCCL,目前已在gitee开源,cann-hccl: cann-hccl,是基于昇腾硬件的高性能集合通信库(Huawei Collective Communication Library,简称HCCL)。HCCL相关术语如下: 编辑 当前HCCL支持AllReduce、AllGather、ReduceScatter、AlltoAll...
HcclResultCollNativeExecutorBase::CalcNotifyNum(u32streamNum,u32¬ifyNum){// notify数量是从流的两倍notifyNum=2U*streamNum;HCCL_INFO("[CollNativeExecutorBase][CalcNotifyNum]tag[%s] notifyNum_ is [%u]",tag_.c_str(),notifyNum);returnHCCL_SUCCESS;} ...
HCCL系列之6-软件类图 框架层:框架层的核心类HcclCommunicator,包含通信域、主从流、Notify、Transport链路、Memory、Event、任务分发、Host-Device数据传输等功能。算法层:算法层的核心类为HcclAlg类,包含集群Operator、集群Executor、Executor。CollExecutor与Executor的区别:Executor为基础公共动作,可复用 编辑 编辑 编...
HCCL 释义 abbr. hydrogen chloride chemical laser 氯化氢化学激光器