filesystems - 如何保护我的文件数据免受磁盘损坏？

Question

最近，我读到一篇题为“SATA vs. SCSI 可靠性”的文章。它主要讨论消费级 SATA 驱动器中非常高的位翻转率，并得出结论“您现在无法从特定磁盘读取所有数据的可能性为 56%”。甚至 Raid-5 也无法拯救我们，因为它必须不断地扫描它是否有问题，如果磁盘确实死了，你几乎可以保证在重建的文件系统上有一些翻转的位。

注意事项：

我听说过 Sun 的ZFS with Raid-Z，但 Linux 和 BSD 的实现仍处于试验阶段。我不确定它是否已准备好迎接黄金时段。

我还阅读了很多关于Par2文件格式的内容。似乎与每个文件一起存储一些额外的 % 奇偶校验可以让您从大多数问题中恢复。但是，我不知道在内部执行此操作的文件系统，并且似乎很难管理单独的文件。

备份（编辑）：

我知道备份是最重要的。但是，如果没有进行某种检查，您可能很容易在不知情的情况下向人们发送不良数据。此外，确定哪个备份具有该数据的良好副本可能很困难。

例如，您有一个运行了一年的 Raid-5 阵列，您发现了一个损坏的文件。现在你必须回去检查你的备份，直到你找到一个好的副本。理想情况下，您会转到包含该文件的第一个备份，但这可能很难弄清楚，特别是如果该文件已被多次编辑。更糟糕的是，考虑该文件是否在损坏发生后被附加或编辑。对于 Par2 等块级奇偶校验，仅此一项就足够了。

score 2 · Accepted Answer

那篇文章通过误解来源大大夸大了这个问题。它假设数据丢失事件是独立的，即如果我使用一千个磁盘，并得到五百个错误，那么很可能在五百个磁盘上各有一个。但实际上，任何遇到过磁盘问题的人都知道，一个磁盘上可能有 500 个错误（仍然是磁盘总容量的一小部分），而其他 999 个则没有问题。因此，在实践中，并不是有 56% 的可能性您无法读取所有磁盘，而是可能更像是 1% 或更少，但是这 1% 中的大多数人会发现他们已经丢失了几十个或数百个扇区，即使整个磁盘没有发生故障。

果然，实际实验反映了这种理解，而不是文章中提供的。

基本上这是“中国耳语”的一个例子。此处链接的文章是指另一篇文章，而该文章又间接引用了已发表的论文。该论文说，这些事件当然不是独立的，但在向易于消化的博客格式过渡时，这一重要事实就消失了。

score 0 · Accepted Answer

56% 的机会我看不懂，我对此表示怀疑。我混合使用了 RAID 5 和其他好东西以及良好的备份实践，但是使用 Raid 5 和热备件我从来没有丢失过数据，所以我不确定所有的大惊小怪是什么。如果您要存储奇偶校验信息……那么您正在使用软件创建 RAID 系统，R5 中的磁盘故障会导致奇偶校验，例如检查以取回丢失的磁盘数据，所以……它已经存在。

运行 Raid，备份你的数据，你很好 :)

score 0 · Accepted Answer

ZFS 是一个开始。许多存储供应商还提供具有额外数据保护功能的 520B 驱动器。但是，这只会在数据进入存储结构后立即保护您的数据。如果它在主机级别被损坏，那么无论如何你都会被淹没。

即将出现一些有前途的基于标准的解决方案来解决这个问题。端到端数据保护。

考虑 T10 DIF（数据完整性字段）。这是一个新兴的标准（它是在 5 年前起草的）和一项新技术，但它的崇高目标是解决数据损坏问题。

filesystems - 如何保护我的文件数据免受磁盘损坏？

3 回答 3

Related

Reference