NCCL是NVIDIA GPU的集合通信库,能实现集合通信和点对点通信,基本上所有AI开源框架通信底层都是NCCL。 优化方法 基于上述问题,ACSpeed充分利用高带宽的nvilnk互联来实现AllReduce算法(例如GPU0与GPU3等),可以在单机通信出现瓶颈时,额外带来性能增益。针对上述V100实例的nvlink组合,ACSpeed实现一套n-trees算法,扩展单机内...