在 TaskManagers(TM) 的 HA 上下文中,当一个 TM 发生故障时,一个新的 TM 将从 JobManager(JM) 故障的最新检查点恢复。
假设我们有 3 个 TM ( tm1, tm2, & tm3) 在某个时间t每个人的检查点 (cp) 都在cp1。所有 TM 在它们之间广播数据。
现在tm2下去了,JM 带来tm2'了cp1检查点作为 HA 的一部分。当t+x一个新的 TM 被提出时,同时其他人进展到cp2.
tm1由广播和tm3作为其一部分的数据如何cp2重播tm2'?