假设我的集群中有 3 个节点,我想运行 300 个作业。
如果我运行1 job per POD
and 100 pods per NODE
,如果 Azure Kubernetes 服务中的某个节点发生故障,会发生什么情况?
假设我的集群中有 3 个节点,我想运行 300 个作业。
如果我运行1 job per POD
and 100 pods per NODE
,如果 Azure Kubernetes 服务中的某个节点发生故障,会发生什么情况?
这些作业将进入挂起状态,因为 Kubernetes 支持每个节点 110 个 pod,因此没有资源来支持故障转移作业。您可以考虑使用 Cluster Autoscaler (Beta),它会提供更多主机来满足运行那些处于挂起状态的作业。
如果一个节点失败
Cluster Autoscaler (CA) 可用于使用自动缩放组处理 Azure 中的节点故障: