在 TaskManagers(TM) 的 HA 上下文中,当一个 TM 发生故障时,一个新的 TM 将从 JobManager(JM) 故障的最新检查点恢复。
假设我们有 3 个 TM ( tm1, tm2, & tm3
) 在某个时间t
每个人的检查点 (cp) 都在cp1
。所有 TM 在它们之间广播数据。
现在tm2
下去了,JM 带来tm2'
了cp1
检查点作为 HA 的一部分。当t+x
一个新的 TM 被提出时,同时其他人进展到cp2
.
tm1
由广播和tm3
作为其一部分的数据如何cp2
重播tm2'
?