java - ClusterSingletonManager 没有故障转移

Question

我一直在测试具有以下设置的 Master / Worker 集群：

我正在通过手动关闭“活动”主节点来测试主节点的故障转移。在工人不处理任务的情况下，故障转移工作正常。“非活动”主节点确实检测到另一个节点无法访问，并最终将启动它的主角色。

但是如果工作人员很忙，那么故障转移就不会完全起作用。如以下消息所示，“非活动”主节点确实将另一个节点检测为不可访问并隔离，但该节点从不启动主角色。

2014-07-23 23:52:31,777 INFO [JobRunner-akka.actor.default-dispatcher-17] 隔离地址 [akka.tcp://JobRunner@12.3.201.135:40000] 仍然无法访问或尚未重新启动。保持隔离。

任何人都知道为什么会发生这种情况以及是否有解决方案？

谢谢。问候。

score 1 · Accepted Answer

1

In the end putting the Master nodes on to their own servers (separate from the Workers) worked.

于 2014-07-24T22:11:03.617 回答

score 0 · Accepted Answer

您使用的是哪个版本的 Akka？最近在心跳优先化方面有所改进——请升级到2.3.4并检查。

2 回答 2