2

我一直在运行一个应该使用最大 64gb RAM 的巨大进程,在它尝试分配超过 30gb RAM 后,它会被内核杀死 OOM,并出现以下错误:

./start.sh: line 23:     7 Killed             

重要的是要注意它是由 argo-events 实例化的 argo 工作流。

然后在查看 grafana 中的 pod 内存使用情况后,我可以看到它没有超过 30gb 阈值:

在此处输入图像描述

此外,在这个节点中只有一个 pod 运行,它只为运行这个进程而旋转(除了 Prometheus 和 Loki 守护程序集)

节点导出器图:

在此处输入图像描述

然后很明显,pod 仍然可以使用大量资源,但这让我觉得某处有 30gb 的限制,它可能在 os、docker 或 kubernetes kubelet 上

那么在 EKS 1.15 中是否有 docker 或 kubernetes 或更具体的默认内存分配限制?

如果没有,这里有什么问题,我该如何进一步调试?(注意:运行此进程的节点已被删除,因此无法 ssh 或 cat 任何日志)

4

0 回答 0