Dragonfly自适应路由是一种根据网络拓扑和流量负载变化,进行动态路由决策的技术。通过主动感知链路拥塞状态,优选路径短、不拥塞的报文转发路径,达到提升网络吞吐和韧性、降低网络延迟的效果。当前Dragonfly自适应路由与直连拓扑网络配合应用于大型超算中心。 为什么需要Dragonfly自适应路由? 建设大型超算中心需要实现大规模计算...
Dragonfly是由John Kim等人在2008年的论文Technology-Driven, Highly-Scalable Dragonfly Topology中提出,它的特点是网络直径小、成本较低,对于高性能计算有着非常大的优势。现在已经被运用在使用Cray XC系列网络的各种超算中。 拓扑结构 一个简单的dragonfly网络如下图所示。 Dragonfly的拓扑结构分为三层:Switch层,Grou...
Dragonfly Topology是由JohnKim等人于2008年提出的一种网络拓扑结构(Technology-Driven, Highly-Scalable Dragonfly Topology),被广泛地应用在高性能计算网结构上。 背景:随着技术的不断发展和端口带宽不断增加,促使使用高基数路由器来减少互连网络的直径、延迟和成本。然而,高基数网络需要比低基数网络更长的电缆。由于电...
然后再对树的中心节点进行遍历,得到新节点顺序表,并根据新节点顺序表进行环形通信,可以改变节点之间的通信模式,将流量均匀分散在dragonfly拓扑网络中,从而减少不同作业之间同时使用环形通信的干扰,由于是将流量均匀分散在dragonfly拓扑网络中的,因此也缓解了dragonfly拓扑中的链路拥塞。
新增虚拟网络拓扑探索功能,能够在 P2P 运行时探测节点之间的网络延迟,从而构建一个虚拟网络拓扑结构提供调度使用。 Manager 提供控制 Scheduler 可以提供的服务,例如在 Manager 中设置 Scheduler 不提供预热功能,那么 Scheduler 实例就会拒绝预热请求。 Dfstore提供GetObjectMetadatas和CopyObject接口,支持 Dragonfly 作为 Jui...
1.一种针对Dragonfly拓扑的动态重构实施方法,其特征在于,包括: 步骤S1,网络监测器定期收集网络中的流量信息和拓扑信息,生成流量矩阵与拓扑矩 阵,作为重构算法逻辑的输入; 步骤S2,将所述流量矩阵和所述拓扑矩阵作为重构算法的输入,基于网络监测器执行 重构算法,生成重构指令,所述重构指令包含本次重构迭代过程中需要重建...
如图所示,假设我们有一个包含六个算子的 flow,其中 B、C、D 三个是异步的算子,它们分别有下游依赖 E 和 F。根据数据依赖关系和拓扑序,可以唯一地反推出一幅 DAG 图,其中 B、C 是并行的关系,B、C、E 整体与 D 也是并行的关系。因此,整个流程的处理结构就像上图中部所示。
(57)摘要本发明公开了一种用于Dragonfly拓扑的Allreduce方法,包括:在每一轮递归中,将参与通信的节点进行基于优先级的拓扑感知一对一匹配,配对的两个节点之间交换部分或全部数据并进行归约,随后根据匹配将节点分为两个节点数相同集合,分别进入下一轮递归,直至集合中仅剩一个节点,其中,基于优先级的拓扑感知匹配的步骤...
图2:Dragonfly拓扑图 Torus架构,将计算节点按照网格的方式排列,连接同行和同列的相邻节点,同时同行和同列最远端的两个节点之间构建直连线路。有两种构建方法,一种是直接网络,计算节点在环面“晶格”中,计算节点适配器负责转发网络包。对于2D Torus架构,计算节点适配器需要具备4个端口,对于3D Torus架构,需要6个端口,...
TensorFlow 是通过参数传递的方式进行数据传递,而我们的控制流是通过函数的配置,它的入参有一个叫 pctr 的字面量值,后续某一个算子有一个 pctr 的值作为它配置的输入,这样去判断出它的前后依赖关系,所以整个逻辑也都是靠拓扑加数据依赖的方式去构图。总之,原理上类似,但具体实现细节上不太一样。