我试图了解 Nomad 如何spread
处理客户端故障。
在 Nomad 作业中,您可以定义一个spread
节,以便作业的实例传播到所有客户端。
以下是文档: https ://www.nomadproject.io/docs/job-specification/spread
由于这spread
是一个软偏好,如果某个客户端出于任何原因出现故障,Nomad 会将在丢失的客户端上运行的所有作业迁移到另一个可用的客户端。(即使使用 bin-packing 也会生效)。
如果有 2 个客户端网格和具有两个分配的作业,如果一个客户端失败,则两个分配将在同一个客户端上运行。
当网格恢复并启动新客户端时会发生什么?作业是否会在该节之后重新传播spread
到两个节点,或者两个分配是否会继续在同一个客户端上运行,直到作业重新运行?