我正在我的 NVMe SSD 上运行 fio 作业,然后对其进行热插拔。该平台是可热插拔的,系统是 Centos 7.0。在我拔出后几秒钟,系统遇到崩溃并给出以下打印信息:
=================
[1026.468414] {1}[硬件错误]:来自 APEI 通用硬件错误源的硬件错误:1
[1026.468422] pciehp 0000:5d:02.0:pcie04: 卡存在于插槽 (6-1)
[1026.468432] pciehp 0000:5d:02.0:pcie04: slot(6-1): Link Down 事件
[1026.468451] pciehp 0000:5d:02.0:pcie04: 插槽 (6-1) 上排队的 Link Down 事件:当前正在开机
[1026.468457] pciehp 0000:5d:02.0:pcie04: 已在插槽 (7-1) 上启用
[1026.468705] {1}[硬件错误]:事件严重性:致命
[1026.468744] {1}[硬件错误]:错误 0,类型:致命
[1026.468782] {1}[硬件错误]:section_type:PCIe 错误
[1026.468825]{1}[硬件错误]:port_type:0,PCIe端点
[1026.468867] {1}[硬件错误]:版本:3.0
[1026.468915] {1}[硬件错误]:命令:0x0102,状态:0x4010
[1026.468961] {1}[硬件错误]:device_id:0000:00:00.0
[1026.469901] {1}[硬件错误]:插槽:0
[1026.469032] {1}[硬件错误]:secondary_bus:0x00
[1026.469070] {1}[硬件错误]:vendor_id:0x1ded,device_id:0x3010
[1026.469117] {1}[硬件错误]:class_code:008001
[1026.469155] 内核恐慌 - 不同步:致命的硬件错误!
=================
系统崩溃的可能根本原因是“卡出现”和“链接断开”这对矛盾的事件对,弄乱了系统逻辑。所以让我感到困惑的是,pciehp 同时报告“卡存在”和“链接断开”。根据我的经验,“卡存在”通常伴随“链接”,“链接关闭”通常伴随“卡不存在”。
谁能给我一些关于这种奇怪情况如何发生的线索?或者 PCIe 寄存器中的哪个位触发“卡存在”事件和“链接断开”事件?