0

请帮忙~

我创建了设置副本的 h2o-stateful-set:3,然后我运行了一个 h2o automl 作业,它运行良好。但突然一个 pod 故障,我使用kubectl delete pod h2o-k8s-1删除这个 pod。statefulset 创建一个具有相同名称 h2o-k8s-1 的新 pod。但是问题来了,新的pod无法加入h2o集群,并且job卡住了,日志如下

FJ-126-3  WARN water.default: Killing h2o-stateful-set-1.h2o-service.dhr-h2o.svc.cluster.local/10.177.5.212:54321 because the cloud is no longer accepting n
ew H2O nodes.

我知道新的 H2O 节点会在启动期间加入以形成集群。在集群上启动作业后,它会阻止新成员加入。但是如果集群 pod 在训练期间发生故障,我该怎么办?

4

1 回答 1

0

是的,这是意料之中的。一旦其中一个节点崩溃,您将需要重新启动整个集群。您需要确保配置您的 kubernets 作业,以免 Pod 被抢占。

于 2022-02-17T00:08:37.553 回答