fault-tolerance - HP/Tandem NonStop 如何在没有备件的情况下实现单故障 FT？

Question

据我从 Wikipedia 和令人难以置信的 HPE 网站收集到的信息，NonStop 系统架构的名声在于它可以实现单故障 FT，而无需分配过多的备用容量（即在锁步架构中，您通常会需要超额配置 3 倍）。

这似乎是一个理想的属性，但我找不到有关他们使用的方法和警告的更多细节。即他们对网络的假设是什么，他们容忍的故障类型，假设的客户端行为，可接受的恢复时间，他们运行的工作流程等。

谁能简要描述一下 NonStop 系统如何解决故障检测和故障纠正的典型问题？它是系统级别的通用神奇解决方案，还是要求编写应用程序以使用某些事务设施和检查点数据和通信？

非常感谢！

score 6 · Accepted Answer

惠普的这篇论文在概念上涵盖了您的问题：

score 0 · Accepted Answer

我认为它类似于 IBM 架构，不共享任何结构。大量冗余，但没有任何东西是共享或供应/专用的——基于我之前对 IBM z/OS 和大型机的阅读。

通常这种类型的系统使用专有操作系统和修改过的内核和特殊的 FS/驱动程序来利用底层硬件。在某些情况下，是的，需要修改应用程序以利用一些特殊的事务库，但就像在水平扩展 RDBMS 时需要为 RDBMS 设置事务锁一样。

很多这种 HA/FT 可以在内核级别实现，从应用程序中抽象出来。

请注意 HPE Non-Stop 系统中的芯片，它是 Itanium 架构，而不是普通的 Xeon 芯片。就像 IBM 有一段时间拥有自己的专有企业级 CPU https://en.wikipedia.org/wiki/Z/Architecture

score 0 · Accepted Answer

绝对不同于 IBM 架构，T/16 CPU 是专有设计。它深受HP 3000小型机的影响。最初的 Tandem 团队主要来自 HP 和 Burroughs。

3 回答 3