0
Kubernetes version : v1.6.7
Network plugin : weave

我最近注意到我的整个 3 个节点集群出现故障。进行我最初级别的故障排除后,发现/var在所有节点上都是100%.

进一步研究日志显示日志被淹没kubelet并声明

Jan 15 19:09:43 test-master kubelet[1220]: E0115 19:09:43.636001    1220 kuberuntime_gc.go:138] Failed to stop sandbox "fea8c54ca834a339e8fd476e1cfba44ae47188bbbbb7140e550d055a63487211" before removing: rpc error: code = 2 desc = NetworkPlugin cni failed to teardown pod "<TROUBLING_POD>-1545236220-ds0v1_kube-system" network: CNI failed to retrieve network namespace path: Error: No such container: fea8c54ca834a339e8fd476e1cfba44ae47188bbbbb7140e550d055a63487211
Jan 15 19:09:43 test-master kubelet[1220]: E0115 19:09:43.637690    1220 docker_sandbox.go:205] Failed to stop sandbox "fea94c9f46923806c177e4a158ffe3494fe17638198f30498a024c3e8237f648": Error response from daemon: {"message":"No such container: fea94c9f46923806c177e4a158ffe3494fe17638198f30498a024c3e8237f648"}

由于<TROUBLING_POD>-1545236220-ds0v1cronjob 和一些错误配置,正在启动,在这些 pod 的运行过程中发生了错误,并且正在启动更多的 pod。

所以我删除了所有作业及其相关的 pod。所以我有一个集群没有运行与我的 cronjob 相关的作业/pod,并且仍然看到相同的错误消息淹没日志。

我做了:

1) 在所有节点上重启 docker 和 kubelet。

2)重启整个控制平面

以及 3) 重新启动所有节点。

但是即使没有这样的 pod 被启动,日志仍然被相同的错误消息淹没。

所以我不知道如何阻止 kubelet 抛出错误。

有没有办法重置我正在使用的网络插件?还是做点别的?

4

1 回答 1

1

检查pod目录是否存在于/var/lib/kubelet

您使用的是非常旧的 Kubernetes 版本,升级将解决此问题。

于 2019-01-16T02:41:53.680 回答