(必选)ECN(Explicit Congestion Notification,显示拥塞通知):设备发生拥塞时,通过对报文 IP 头中 ECN 域的标识,由接收端向发送端发出降低发送速率的 CNP(Congestion Notification Packet,拥塞通知报文),实现端到端的拥塞管理,减缓拥塞扩散恶化。 (建议)DCBX(Data Center Bridging Exchange Protocol,数据中心桥能力交换...
对于40Gbps网络,1500B MTU下接收方每50微秒最多收到166个网络报文,所以NP可以同时为10~20个流生成CNP,ConnectX-4可以同时为200个流生成CNP。 CNP生成是一个开销比较大的动作。上面一段话的意思是,每个流在发生拥塞是至少要在50微秒内生成1个CNP报文,而每次生成一个CNP需要消耗5微秒,即50微秒内只能生成10个CNP...
发送拥塞通知包CNP给发送端, 这时候假如发送端收到多个接收端发来的ECN包, 发送方需要有一个分布式拥塞控制算法(DCQCN, 由Mellanox和微软共同开发), 来降速和调度发送, 一段时间发端没有收到CNP时, 这个时候需要恢复流量, 目前是按照三个阶段来恢复, 快速恢复FR(fast recovery) -> 二分递增AI(additive...
但,这种机制在RDMA中是行不通的。 因此,我们引入了RCM(RoCEv2 Congestion Management)机制,在收到ECN Field为3的数据包时,会通过CNP(Congestion Notification Packet)通知发送端。发送端收到此数据包时,暂时降低发送速率。经过一个预先设定的时间窗后再恢复发送速率。 有了PFC,ECN以及RCM,RoCE就可以愉快地工作了!—...
CNP帧格式: 配置流控: QoS保证质量 主要是二层的PCP和三层的DSCP, 进行流分类, 保证服务质量 网卡接收缓冲区的细粒度控制 将RX Buffer切片, 比如8片, 进行更细粒度的优先级队列控制 其他 一键配置: 可通过脚本检测和配置, 用于管理 RoCE 部署的系统高性能网络接口配置的命令行实用程序, 参考:https://github.co...
(必选)ECN(Explicit Congestion Notification,显示拥塞通知):设备发生拥塞时,通过对报文IP头中ECN域的标识,由接收端向发送端发出降低发送速率的CNP(Congestion Notification Packet,拥塞通知报文),实现端到端的拥塞管理,减缓拥塞扩散恶化。 (建议)DCBX(Data Center Bridging Exchange Protocol,数据中心桥能力交换协议):使用...
根据观察,incast导致CNP和PFC会导致网络性能和健壮性的下降。 X-RDMA通过1. 消息分片和2. 消息排队 来协助DCQCN缓解网络拥塞。 消息分片:对于大的请求,X-RDMA会把请求按照64KB的粒度进行切分,然后逐片发送。以避免大消息对网卡的阻塞。 消息排队:X-RDMA限制同时能发起的WR请求数量为N,多出来的请求放到队列里排队...
(必选)ECN(Explicit Congestion Notification,显示拥塞通知):设备发生拥塞时,通过对报文IP头中ECN域的标识,由接收端向发送端发出降低发送速率的CNP(Congestion Notification Packet,拥塞通知报文),实现端到端的拥塞管理,减缓拥塞扩散恶化。 (建议)DCBX(Data Center Bridging Exchange Protocol,数据中心桥能力交换协议):使用...
一旦接收服务器发现报文的ECN被标记,立刻产生CNP(拥塞通知报文),并将它发送给源端服务器,CNP消息里包含了导致拥塞的Flow信息。源端服务器收到后,通过降低相应流发送速率,缓解网络设备拥塞,从而避免发生丢包。通过之前的描述可以了解到,PFC和ECN之所以可以实现网络端到端的零丢包,是通过设置不同的水线来实现的...
由接收方网卡完成,主要是把拥塞信息通知到发送方。RoCEv2 新增了 CNP(Congestion Notification Packets)控制报文用于拥塞通知。接收方网卡检查每个接收包的 ECN 标志,如果 CN 被设置,那么发送 CNP 给发送方。为了减少性能开销,每 50 us 只发送一个 CNP(DCTCP 是每个包都回复一个)。