0

我有一个带有自定义 GPU 驱动的抢占式节点池的 kubeflow k8s 集群us-central1-a在此处输入图像描述

我在这些 GPU 节点上运行 kubeflow 笔记本服务器。由于某些神秘的原因,节点compute.instances.preempted在启动后很快(5-10 分钟)就会收到消息: 在此处输入图像描述

为什么会这样?

4

1 回答 1

4

由于您已经创建了一个可抢占节点池,因此这几乎是预期的行为。GCE 可以随时终止抢占式实例,并且您拥有的唯一真正保证是,如果它们运行,您将不会为实例付费(但您将为任何请求的高级操作系统付费——COS 不是其中之一)不到一分钟(当然,它们总是会在 24 小时后被抢占)。

GPU 节点可能需求量很大,并且与其他可抢占式实例一样,这将受制于特定区域和一天中的时间。如果您需要实例保持可用,则应使用全价实例。使用 GKE,有一种方法可以自动扩展 GPU 节点以帮助控制成本。

于 2019-11-06T16:53:55.170 回答