fault-tolerance - HP (Tandem) Non stop 与 Linux 集群相比如何？

Question

HP NonStop 系统（以前称为“Tandem”）以其高可用性和可靠性以及更高的价格而闻名。

在这些方面和其他方面，基于 Linux 或 Unix 的集群与它们相比如何？

score 15 · Accepted Answer

在容错机器上，容错直接在硬件中处理，对应用程序透明。对集群进行编程需要您明确处理应用程序中的容错。

在实践中，集群应用程序架构比为诸如 NonStop 等容错平台构建的应用程序构建起来更加复杂且容易出错。这意味着由应用程序错误驱动的不可靠性的范围要大得多，正如伦敦证券交易所发现的那样艰难。他们有一个现有的基于 Tandem 的系统，这是证券交易所交易应用程序的常见架构。他们的新 CEO 有一个聪明的想法，即微软是前进的方向，并让一家 5 大咨询公司构建了一个基于 120 台服务器集群的 .Net 系统。

集群应用程序的问题在于故障可以相互关联。如果系统中存在应用程序或配置错误，通常会在所有节点上复制它。这意味着您可以获得一个可以摧毁整个集群的情况或事件。集群应用程序的额外复杂性使它们在开发和部署时更容易出错，这增加了发生这种情况的几率。构建在（例如）Linux 和 J2EE 上的集群系统容易受到相同类型的故障模式的影响。

恕我直言，这是旧式大型机架构的主要优势。几家供应商（IBM、HP、DEC 以及可能我想不到的其他几家）制造了容错系统。这类系统的底层编程模型比集群的 n 层应用服务器要简单一些。这意味着出错的可能性相对较小，并且只要付出一定的努力，您就可以实现更可靠的系统。数量惊人的旧建筑仍然活跃且良好，并且在其市场利基中过着舒适的生活。IBM 仍然销售大量 Z 和 I 系列机器；Unisys 仍然生产 A 系列和 2200 系列；VMS 和 NonStop 在 HP 中仍然存在。这些系统的销售并非全部面向现有客户——例如，在 ISeries 上运行的商业承保系统 (GENIUS) 仍然是该领域的市场领导者，在我撰写本文时，新的部署正在进行中。我知道，该应用程序已经经历了两次重写它的尝试（Java 中的 1 次和 .Net 中的 1 次），并且“老派”平台似乎并没有真正限制它的风格。

我还不会做空任何屏幕刮板供应商......

Gray & Reuter 的Transaction Processing: Concepts and Techniques有点枯燥和学术，但对容错系统架构有很好的处理。其中一位作者是 Tandem 系统设计的关键参与者。

fault-tolerance - HP (Tandem) Non stop 与 Linux 集群相比如何？

1 回答 1

Related

Reference