* What algorithms there are for doing failover in a distributed system?
可能不是算法,而是系统。你需要围绕你提出的问题来设计你的架构。
* What algorithms there are for consensus in a distributed system?
您可能想要实现 Paxos。简单的 Paxos 并不难做到。如果你想让它防弹,请阅读 Google 的“Paxos Made Live”论文。如果您希望使其具有高性能,请查看 Multi-Paxos。
* How should the nodes in the cluster determine that a node is down?
要看。心跳实际上是一个很好的方法来做到这一点。问题是您有误报,但这是不可避免的,并且在同一 LAN 上具有可管理负载的集群中,它们是准确的。Paxos 的好处是可以自动处理误报。但是,如果您出于其他目的确实需要故障信息,那么您需要确保可以检测到节点失败,但实际上它只是处于负载状态并且需要时间来响应心跳。
* How should the nodes determine that what database entries had their master copy on the failed node at the time of failure, so that other nodes may recover those entries?
* How to decide that which node(s) has the latest secondary copy of some entry?
* How to decide that which node's secondary copy should be promoted to be the new master copy?
我认为您可能真的从阅读 Google FileSystem 论文中受益。在 GFS 中有一个专用的主节点,它跟踪哪些节点有哪些块。这个方案可能对你有用,但关键是尽量减少对这个 master 的访问。
如果您不将此信息存储在专用节点上,那么您将不得不将其存储在任何地方。尝试使用主持有者的 ID 标记数据。
* How to handle it, if the node which was though to be down, suddenly comes back as if nothing happened?
见上文,但基本点是您必须小心,因为不再是主节点的节点可能会认为它是主节点。我认为您尚未解决的一件事:更新如何到达主节点 - 即客户端如何知道将更新发送到哪个节点?
* How to avoid split-brain scenarios, where the network is temporarily split into two, and both sides think that the other side has died?
Paxos 通过在完美拆分的情况下阻止进展来发挥作用。否则,和以前一样,你必须非常小心。
一般来说,解决知道哪个节点将哪个数据项作为主节点的问题,您将在修复您的架构方面有很长的路要走。请注意,您不能只让接收更新的节点成为主节点——如果两个更新同时发生怎么办?也不要依赖同步的全球时钟——那是疯狂的所在。如果可以的话,您可能希望避免在每次写入时都达成共识,因此可能需要一个缓慢的主故障转移协议和一个快速的写入路径。
如果您想了解更多详细信息,请随时给我发送邮件。我的博客http://the-paper-trail.org处理了很多这样的东西。
干杯,
亨利