2

最近,我读到一篇题为“SATA vs. SCSI 可靠性”的文章。它主要讨论消费级 SATA 驱动器中非常高的位翻转率,并得出结论“您现在无法从特定磁盘读取所有数据的可能性为 56%”。甚至 Raid-5 也无法拯救我们,因为它必须不断地扫描它是否有问题,如果磁盘确实死了,你几乎可以保证在重建的文件系统上有一些翻转的位。

注意事项:

我听说过 Sun 的ZFS with Raid-Z,但 Linux 和 BSD 的实现仍处于试验阶段。我不确定它是否已准备好迎接黄金时段。

我还阅读了很多关于Par2文件格式的内容。似乎与每个文件一起存储一些额外的 % 奇偶校验可以让您从大多数问题中恢复。但是,我不知道在内部执行此操作的文件系统,并且似乎很难管理单独的文件。

备份(编辑):

我知道备份是最重要的。但是,如果没有进行某种检查,您可能很容易在不知情的情况下向人们发送不良数据。此外,确定哪个备份具有该数据的良好副本可能很困难。

例如,您有一个运行了一年的 Raid-5 阵列,您发现了一个损坏的文件。现在你必须回去检查你的备份,直到你找到一个好的副本。理想情况下,您会转到包含该文件的第一个备份,但这可能很难弄清楚,特别是如果该文件已被多次编辑。更糟糕的是,考虑该文件是否在损坏发生后被附加或编辑。对于 Par2 等块级奇偶校验,仅此一项就足够了。

4

3 回答 3

2

那篇文章通过误解来源大大夸大了这个问题。它假设数据丢失事件是独立的,即如果我使用一千个磁盘,并得到五百个错误,那么很可能在五百个磁盘上各有一个。但实际上,任何遇到过磁盘问题的人都知道,一个磁盘上可能有 500 个错误(仍然是磁盘总容量的一小部分),而其他 999 个则没有问题。因此,在实践中,并不是有 56% 的可能性您无法读取所有磁盘,而是可能更像是 1% 或更少,但是这 1% 中的大多数人会发现他们已经丢失了几十个或数百个扇区,即使整个磁盘没有发生故障。

果然,实际实验反映了这种理解,而不是文章中提供的。

基本上这是“中国耳语”的一个例子。此处链接的文章是指另一篇文章,而该文章又间接引用了已发表的论文。该论文说,这些事件当然不是独立的,但在向易于消化的博客格式过渡时,这一重要事实就消失了。

于 2008-09-17T19:34:13.530 回答
0

56% 的机会我看不懂,我对此表示怀疑。我混合使用了 RAID 5 和其他好东西以及良好的备份实践,但是使用 Raid 5 和热备件我从来没有丢失过数据,所以我不确定所有的大惊小怪是什么。如果您要存储奇偶校验信息……那么您正在使用软件创建 RAID 系统,R5 中的磁盘故障会导致奇偶校验,例如检查以取回丢失的磁盘数据,所以……它已经存在。

运行 Raid,备份你的数据,你很好 :)

于 2008-09-17T19:20:55.620 回答
0

ZFS 是一个开始。许多存储供应商还提供具有额外数​​据保护功能的 520B 驱动器。但是,这只会在数据进入存储结构后立即保护您的数据。如果它在主机级别被损坏,那么无论如何你都会被淹没。

即将出现一些有前途的基于标准的解决方案来解决这个问题。端到端数据保护。

考虑 T10 DIF(数据完整性字段)。这是一个新兴的标准(它是在 5 年前起草的)和一项新技术,但它的崇高目标是解决数据损坏问题。

于 2008-09-17T20:05:53.983 回答