c++ - 如何检索底层块设备 IO 错误

Question

考虑系统中的一个设备，在 /dev/hdd[sg][nvme]xx 下打开设备，获取文件描述符并开始使用它（read(v)/ write(v)/lseek等），在某些时候你可能会得到EIO. 您如何检索设备驱动程序报告的基础错误？

EDIT001：如果无法使用unistd函数，也许还有其他方法可以使用块设备来提供更多低级信息，例如sg_scsi_sense_hdr？

score 2 · Accepted Answer

您无法从 POSIX 函数中获取更多错误详细信息。不过，你在 SCSI 通用的东西上走上了正确的道路。但是，男孩，它长满了头发。查看 sg3_utils 中有关如何执行 SCSI READ(16) 的示例。这将让您在返回时查看感知数据：

https://github.com/hreinecke/sg3_utils/blob/master/examples/sg_simple16.c

当然，这种技术不适用于 NVMe 驱动器。（至少，据我所知不是）。

我过去玩过的一个概念是使用普通的 POSIX/libc 块 I/O 函数，例如pread，pwrite直到我得到一个 EIO。此时，您可以引入 SCSI 通用版本来尝试找出发生了什么。在理想情况下，a preador会lseek/read因 EIO 而失败。然后您转身并使用 SG READ (10) 或 (16) 重新发出它。如果不只是暂时性故障，这可能会返回您的应用程序可以使用的感知数据。

这是一个使用命令行 sg_read 程序的示例。我有一个正在读写的 iSCSI 附加磁盘。在目标上，我删除了它的 LUN 映射。 dd报告 EIO：

# dd if=/dev/sdb of=/tmp/output bs=512 count=1 iflag=direct
dd: error reading ‘/dev/sdb’: Input/output error

但sg_read报告了一些更有用的信息：

[root@localhost src]# sg_read blk_sgio=1 bs=512 cdbsz=10 count=512 if=/dev/sdb odir=1 verbose=10
Opened /dev/sdb for SG_IO with flags=0x4002
    read cdb: 28 00 00 00 00 00 00 00 80 00
      duration=9 ms
reading: SCSI status: Check Condition
 Fixed format, current;  Sense key: Illegal Request
 Additional sense: Logical unit not supported
 Raw sense data (in hex):
        70 00 05 00 00 00 00 0a  00 00 00 00 25 00 00 00
        00 00
sg_read: SCSI READ failed
Some error occurred,  remaining block count=512
0+0 records in

您可以Logical unit not supported在上面的输出中看到额外的感知代码，表明目标没有这样的 LU。

可能的？是的。但是从中的代码可以看出sg_simple16.c，这并不容易！

c++ - 如何检索底层块设备 IO 错误

1 回答 1

Related

Reference