ERR_FATAL:致命错误,此错误类型影响了PCIe link链路,为了防止错误扩散,通常会由错误设备的上游桥对错误设备进行复位操作 ERR_NONFATAL:指影响了设备功能,但是PCIe link还是稳定的 AER功能启动条件: 对于EP设备和RC都应该启动Command Register寄存器中SERR#Enable; 对于EP设备,需要将AER中不可纠正错误掩码和可纠正错误掩...
AER全称为Advanced Error Reporting,即高级错误报告,是PCIe可选的Extended Capability,用于报告PCIe 错误信息。 AER能力结构如下图所示,通过Root Error Command Register来控制错误上报的使能。可以通过INTx中断或MSI中断来上报。 2.2 系统错误上报 系统错误上报通过PCIe能力结构中的Root Control Register来使能。 参考: PCI...
不像 x86这样有多种中断类型的可能,MCE和AER倒也罢了,最后所有其它类型的硬件故障都归入NMI,而NMI是一个过度使用的公用中断,软件也用、硬件 也用,perf profiling也用,watchdog也用,而且NMI本不是专为故障诊断设计的,提供的故障信息量非常少,使得故障定位很难;即使是专门为方便故障 诊断而设计的MCE和AER,在实践中...
告警相关的错误码 对系统的影响 可能导致PCIe卡运行不稳定,系统停止响应。 可能原因 PCIe标卡故障。 主板故障。 处理步骤 下电后检查该部件与其插槽是否存在损坏或接触不良现象。 是=>2 否=>3 重新安装产生告警的PCIe卡,检查告警是否清除。 是=> 处理完毕 ...
通过AER,系统可以及时检测到PCI Express设备的错误,包括传输错误、协议错… 划天之音 PCIE协议-实战应用2(AER问题) 项目背景:HOST端是双路CPU服务器,通过PCIe switch扩展出更多的PCIe端口,用于挂载NIC网卡以及GPU等设备,框架图参考如下: 问题描述:如下两图是开机中报的Hardware Error或者进入系统后,… 工程师老汤 ...
o 高级不可校正错误屏蔽 高级不可校正错误评级寄存器如下图所示,当相关bit被置1时,对应的错误类型将不会被报告。 配置空间中的高级错误报告结构中包含有一个4DW的子空间,用于缓存接收到的,发生不可校正错误的(未被屏蔽的)的TLP的包头。PCIe Spec规定,...
在Linux 系统中热插拔 PCIe 卡可能会因为选件 ROM 速度不匹配而导致 AER。 解决方法 如果在热插拔 PCIe 卡之后遇到 AER: 对于 Oracle Linux 6.5,在 /etc/grub.conf 文件中添加以下行:
· 可以定位错误源在PCIe体系结构中的位置 · 能够独立地屏蔽某种(或者多种)错误类型的报告 配置空间中的AER相关寄存器结构如下图所示: 前面的文章中多次提到过,ECRC的产生于校检需要AER的支持,相关控制bit位于高级错误功能控制寄存器中,如下图所示: 其中,...
当PCIe链路状态存在AER错误时,产生此告警;当PCIe链路状态恢复正常时,此告警消失。 产生此告警的设备为:NPU 告警属性 表7-46告警信息 告警ID 告警级别 可自动清除 0x000E002D 一般 是 对系统的影响 无。 可能原因 PCIe链路不稳定。 处理步骤 重启Atlas 500 A2 智能小站,查看告警是否消失。