原微软Pingmesh论文地址: 《Pingmesh: A Large-Scale System for Data Center Network Latency Measurement and Analysis》。 常见的数据中心网络拓扑: 在这样的架构中,有多个数据中心,数据中心之间有专线连通,在数据中心内部有多个Spine、Leaf、ToR交换机,在一些架构中,leaf交换机也会直接充当ToR作为服务器接入交换机,...
每台服务器去 ping (N-1) 台,也就是 N^2 的复杂度,稳定性和性能都存在一些问题,最近打算对这部分进行重写,在重新调研期间看到了 Pingmesh 这篇论文,Pingmesh 是微软用来监控数据中心网络情况而开发的软件,通过阅读这篇论文来学习下他们是怎么做的。
Pingmesh| 一种大规模数据中心网络质量检测工具 背景 在我们内部产品中,一直有关于网络性能数据监控需求,我们之前是直接使用ping命令收集结果,每台服务器去 ping (N-1) 台,也就是 N^2 的复杂度,稳定性和性能都存在一些问题,最近打算对这部分进行重写,在重新调研期间看到了 Pingmesh 这篇论文,Pingmesh 是微软用来...
为了更好地了解网络的运行情况以及及时发现潜在的问题,Pingmesh 技术应运而生。 Pingmesh 的提出最初是来自微软,在微软内部 Pingmesh 每天会记录 24TB 数据,进行 2000 亿次 ping 探测,通过这些数据,微软可以很好的进行网络故障判定和及时的修复。 下面是 Flashcat Pingmesh 的页面样例,可以清晰地看到各个机房之间的网...
Pingmesh 架构设计 Controller Controller 主要负责生成 pinglist 文件,这个文件是 XML 格式的,pinglist 的生成是很重要的,需要根据实际的数据中心网络拓扑进行及时更新。 在生成 pinglist 时, Controller 为了避免开销,分为3 个级别: 在机架内部,让所有的 server 互相 ping,每个 server ping (N-1) 个 server ...
pingmesh安装配置 环境: vlnx107001.firstshare.cn primary vlnx107002.firstshare.cn slave centos7 postresql9.6 repmgr4.0.5 开启防火墙 firewall-cmd --zone=public --add-port=5432/tcp --permanent 重新载入 firewall-cmd --reload 查看 firewall-cmd --zone=public --query-port=5432/tcp...
基于Pingmesh需要能够区分用户感知的延迟增加是由网络引起还是由应用程序自身引起的要求,Pingmesh应该使用应用程序生成的相同类型的数据包。由于我们数据中心中几乎所有的应用程序都使用TCP和HTTP,Pingmesh使用TCP和HTTP进行探测,而不是使用ICMP或UDP。 因为我们需要区分“网络”问题是由网络还是应用程序本身引起的,Pingmesh代理...
下面是Flashcat Pingmesh的页面样例,可以清晰地看到各个机房之间的网络情况,也可以看到各个机柜或交换机之间的情况: 业界方案 业界对Pingmesh的实现大都基于微软的一则论文为基础,做出了一些改造和升级。原微软Pingmesh论文地址: 《Pingmesh: A Large-Scale System for Data Center Network Latency Measurement and Analysis...
在数据中心中,Pingmesh通过处理每个数据中心作为一个虚拟节点形成了第三个完全图。完整的图及相关参数的计算由一个中央pingmesh控制器控制。测量的延迟数据被收集和存储,通过数据存储和分析管道进行汇总和分析。从延迟的数据,网络SLAs的定义和在宏观层面追踪(即数据中心层面)和微观层面(例如,每服务器和每机架水平)。所有...
pingmesh利用所有服务器发起TCP或HTTP层提供最大延迟的测量范围。pingmesh 形成多层次的完整图。在数据中心,Pingmesh让机架内的服务器构成一个完整的图形,并使用机架(Tor)开关的顶部作为虚拟节点,并让它们形成第二个完整图。在数据中心中,Pingmesh通过处理每个数据中心作为一个虚拟节点形成了第三个完全图。完整的图及...