1、报错信息 pcieport 0000:00:1c.7: AER: PCIe Bus Error: severity=Corrected, type=Physical Layer, (Receiver ID) device [8086:a33f] error status/mask=00000001/00002000 [ 0[ RxErr 2、修改grub文件 //备份 grub sudo cp /etc/default/grub /etc/default/grub.bak //随便用什么编辑都行 vi vi...
不像 x86这样有多种中断类型的可能,MCE和AER倒也罢了,最后所有其它类型的硬件故障都归入NMI,而NMI是一个过度使用的公用中断,软件也用、硬件 也用,perf profiling也用,watchdog也用,而且NMI本不是专为故障诊断设计的,提供的故障信息量非常少,使得故障定位很难;即使是专门为方便故障 诊断而设计的MCE和AER,在实践中...
因为我们在debug AER问题中,首先就要定位是PCIe链路上哪个PCIe端口出的AER报错,那么有了图4中BDF号和PCIe Port的对应关系,就能很快知道是switch端还是设备端出的问题。 AER问题分析: 通过查询设备号,定位到是GPU报的RxErr+,BadTLP+等,而switch的下行端口没有任何报错,那说明GPU端的CE报错是switch发送过来的信号,经...
AER以协议Error list中判定的消息结果作为默认发送的方式,但是也可通过编程AER的一些寄存器发送更高级的错误消息。 3.2.2错误消息屏蔽 只有当Device Control 寄存器的Reporting Enable fields或PCI Command寄存器的SERR# Enable位置1的情况下设备才能转发消息,此外如果配置了AER的设备可以通过Uncorrectable Error Mask寄存器和...
PCIe 提供两种报错机制:baseline capability 和 AER capability Baseline capability is required by all PCIe components providing a minimum defined set of error reporting requirements. AER is implemented with a PCIe advanced error reporting extended capability structure. ...
在一项涉及双路CPU服务器的项目中,服务器通过PCIe switch扩展出多个端口以支持NIC和GPU设备。然而,遇到一个关键问题——在开机或压力测试时,GPU设备偶尔会出现AER(Advanced Error Reporting)报错,如receiver error、Bad TLP和timeout。理解PCIe Tree以及BDF(Bus Number, Device Number, Function Number...
当PCIe设备插到某个主机上,出现问题时,需要分析主机和设备的报错信息。但是主机对我们来说近乎是个黑盒,能获取并能解析的主要信息就是AER。我们可以通过读取主机的配置空间获得AER信息,同时如果主机检测到了AER,主机日志上可能也会打印相关信息(为防止敏感信息外泄,这里不截图展示了。读者可以自己找一台主机,lspci一...
配置空间中的AER相关寄存器结构如下图所示: 前面的文章中多次提到过,ECRC的产生于校检需要AER的支持,相关控制bit位于高级错误功能控制寄存器中,如下图所示: 其中,最低5bits为当前错误指针(First Error Pointer),当相关错误状态更新时,该指针由硬件自动更新。一般情况下,当前错误指针指向的错误是优先级最高的错误,需要...
其实解决方法是一样的,只是加载grub的命令不一样而已错误信息如下:Jan 22 11:42:00 office-test-001 kernel: pcieport 0000:00:1d.0: AER: Corrected error received: id=00e8Jan 22 11:42:00 office-t AER Corrected erro 原创 TsingCall 2019-01-22 12:34:33 10000+阅读 ...