0

我正在设计一个系统,我将在其中运行程序以标称/冗余模式,一个在一台机器上,一个在另一台机器上。如果 Nominal 程序失败(故障转移事件),Redundant 应该接管并将操作作为一个新的 Nominal 进程。这对用户应该是透明的。

我的问题是:当发生故障转移时,这应该只是因为硬件故障吗?还是软件错误足以触发故障转移?

更一般地说,是否有一个行业标准来决定什么应该导致故障转移,或者这取决于系统架构师/设计师?

4

1 回答 1

1

从集群的角度来看,这些类型的错误没有任何区别。问题是您不能依赖来自故障节点的任何“我失败”事件。

集群(在您的情况下为“冗余”角色)只是发现节点没有发送心跳(没有响应 ping)。然后“冗余”使自己成为“主”并开始处理传入的请求。这就是我想的。

于 2013-06-24T19:36:18.573 回答