我有一个带有自定义 GPU 驱动的抢占式节点池的 kubeflow k8s 集群us-central1-a
:
我在这些 GPU 节点上运行 kubeflow 笔记本服务器。由于某些神秘的原因,节点compute.instances.preempted
在启动后很快(5-10 分钟)就会收到消息:
为什么会这样?
由于您已经创建了一个可抢占节点池,因此这几乎是预期的行为。GCE 可以随时终止抢占式实例,并且您拥有的唯一真正保证是,如果它们运行,您将不会为实例付费(但您将为任何请求的高级操作系统付费——COS 不是其中之一)不到一分钟(当然,它们总是会在 24 小时后被抢占)。
GPU 节点可能需求量很大,并且与其他可抢占式实例一样,这将受制于特定区域和一天中的时间。如果您需要实例保持可用,则应使用全价实例。使用 GKE,有一种方法可以自动扩展 GPU 节点以帮助控制成本。