12

我在 Akka 的文档中读到,当使用集群单例时,应该避免使用自动停机。我不明白在这种情况下应该如何配置downing。我了解我可以订阅集群成员事件并根据这些消息计划我的策略。但是,我不明白它与自动下降有何不同。

当一个节点以某种方式从集群中分区时,如果使用自动关闭,分区节点将“认为”整个集群丢失并启动它自己的集群(使用它自己的单例)。但是,另一方面,我不能将无法访问的节点永远保持在无法访问的状态,因为集群不会达到收敛(新节点将无法加入),并且如果分区节点是单例本身,那么一个新的单例节点不会被分配,因此,根据我的理解,唯一要做的就是在一段时间后删除无法访问的节点,这正是自动关闭所做的。

我在这里想念什么?

4

1 回答 1

1

查看下面的代码。auto-down-unreachable-after正如医生所说,我已经关闭了该功能。相反,我实现了一个与正常情况有点不同的自定义逻辑。下面代码的关键是如果发生网络分区,只有拥有多数的集群节点会UnreachableMember在一些可配置的 5 秒后关闭。另一方面,少数集群节点会踩到他们的UnreachableMember(这是多数派)unreachable,不要把它们拿下来形成一个孤岛。多数派的想法是从 MongoDB 借来的,我认为这并不新鲜在计算机科学领域。

class ClusterListener extends Actor with ActorLogging {

  val cluster = Cluster(context.system)
  var unreachableMember: Set[Member] = Set()

  // subscribe to cluster changes, re-subscribe when restart 
  override def preStart(): Unit = {
    //#subscribe
    cluster.subscribe(self, initialStateMode = InitialStateAsEvents, classOf[UnreachableMember], classOf[ReachableMember])
    //#subscribe
  }
  override def postStop(): Unit = cluster.unsubscribe(self)

  def receive = {
    case UnreachableMember(member) =>
      log.info("Member detected as unreachable: {}", member)
      val state = cluster.state
      if (isMajority(state.members.size, state.unreachable.size)) {
        scheduletakeDown(member)
      }
    case ReachableMember(member) =>
      unreachableMember = unreachableMember - member
    case _: MemberEvent => // ignore
    case "die" =>
      unreachableMember.foreach { member =>
        cluster.down(member.address)
      }
  }

  // find out majority number of the group
  private def majority(n: Int): Int = (n+1)/2 + (n+1)%2

  private def isMajority(total: Int, dead: Int): Boolean = {
    require(total > 0)
    require(dead >= 0)
    (total - dead) >= majority(total)
  }

  private def scheduletakeDown(member: Member) = {
    implicit val dispatcher = context.system.dispatcher
    unreachableMember = unreachableMember + member
    // make 5s config able!!!
    context.system.scheduler.scheduleOnce(5 seconds, self, "die")
  }

}
于 2015-06-04T05:40:16.990 回答