我有一个带有 2 个 ASG 的 EKS 设置(v1.16):一个用于计算(“c5.9xlarge”),另一个用于 gpu(“p3.2xlarge”)。两者都配置为 Spot 并设置为 desiredCapacity 0。
K8S CA 按预期工作并在必要时横向扩展每个 ASG,问题是新创建的 gpu 实例无法被 master 识别并且运行时kubectl get nodes
什么也不会发出。我可以看到 ec2 实例处于运行状态,我也可以 ssh 机器。
我仔细检查了标签和标签,并将它们与“计算”进行了比较。两者的配置几乎相似,唯一的区别是 gpu 节点组几乎没有额外的标签。
由于我使用的是 eksctl 工具(v.0.35.0)并且计算 nodeGroup 与 gpu nodeGroup 基本上是复制和粘贴,所以我无法弄清楚可能是什么问题。
更新:ssh 实例我可以看到以下错误(/var/log/messages)
failed to run Kubelet: misconfiguration: kubelet cgroup driver: "systemd" is different from docker cgroup driver: "cgroupfs"
kubelet 服务崩溃了。
我的 GPU 是否可能使用错误的 AMI(amazon-eks-gpu-node-1.18-v20201211)?