docker - 在k8s节点上，如何管理节点上电时的pod磁盘IOland-rush？

Question

问题

当我们本地托管的裸机 k8s (1.18) 节点之一启动时，pod 已安排好，但难以达到“就绪”状态 - 几乎完全是由于 30 到 40 个正在安排的 pod 的磁盘 IO 涌入同时在节点上。

这通常会导致一连串的部署失败：

FWIW 内存和 CPU 在节点上被过度配置，即使在开机状态下（<10% 的使用率）也是如此。

尽管我们确实有应用程序 NFS 卷挂载（这通常是可疑的 WRT IO 问题），但 pod 启动时的磁盘活动和限制几乎完全在本地 docker 容器文件系统中。

由于磁盘 IO 不是有限资源，我们正在努力寻找解决方案。我们已经调整了我们的 docker 镜像，使其在启动时尽可能少地写入磁盘，这对一些人有所帮助。

一种基本解决方案是通过增加集群中的节点数量来减少每个节点调度的 Pod 数量。这对我们来说并不理想，因为它们是物理机器，一旦节点启动，集群就会严重资源过剩。

由于我们是裸机/本地的，我们没有一种自动方法来在启动情况下自动配置节点并在集群稳定时降低它们。

乍一看，应用priorityClasses 似乎是一个解决方案。但是，我们已经创建了 priorityClasses 并相应地应用了它们，如文档中所列：

Pod 可以有优先权。优先级表示一个 Pod 相对于其他 Pod 的重要性。如果 Pod 无法被调度，调度程序会尝试抢占（驱逐）较低优先级的 Pod，以使挂起的 Pod 的调度成为可能。

tldr：Pod 仍将在开机时同时“可调度”，因为没有超过可配置的资源限制。

score 2 · Accepted Answer

虽然我也有兴趣看到聪明人回答这个问题，但我可能“还好”的想法是：

这是我用于测试/故障排除的无操作“noop”图像的 Dockerfile：

FROM alpine:3.9

CMD sh -c 'while true; do sleep 5; done'

score 0 · Accepted Answer

如果配置得当，I/O“抢滩”仍然会发生，但 pod 有足够的时间自行解决而不是被杀死。