请帮忙~
我创建了设置副本的 h2o-stateful-set:3,然后我运行了一个 h2o automl 作业,它运行良好。但突然一个 pod 故障,我使用kubectl delete pod h2o-k8s-1删除这个 pod。statefulset 创建一个具有相同名称 h2o-k8s-1 的新 pod。但是问题来了,新的pod无法加入h2o集群,并且job卡住了,日志如下
FJ-126-3 WARN water.default: Killing h2o-stateful-set-1.h2o-service.dhr-h2o.svc.cluster.local/10.177.5.212:54321 because the cloud is no longer accepting n
ew H2O nodes.
我知道新的 H2O 节点会在启动期间加入以形成集群。在集群上启动作业后,它会阻止新成员加入。但是如果集群 pod 在训练期间发生故障,我该怎么办?