Kubernetes version : v1.6.7
Network plugin : weave
我最近注意到我的整个 3 个节点集群出现故障。进行我最初级别的故障排除后,发现/var
在所有节点上都是100%
.
进一步研究日志显示日志被淹没kubelet
并声明
Jan 15 19:09:43 test-master kubelet[1220]: E0115 19:09:43.636001 1220 kuberuntime_gc.go:138] Failed to stop sandbox "fea8c54ca834a339e8fd476e1cfba44ae47188bbbbb7140e550d055a63487211" before removing: rpc error: code = 2 desc = NetworkPlugin cni failed to teardown pod "<TROUBLING_POD>-1545236220-ds0v1_kube-system" network: CNI failed to retrieve network namespace path: Error: No such container: fea8c54ca834a339e8fd476e1cfba44ae47188bbbbb7140e550d055a63487211
Jan 15 19:09:43 test-master kubelet[1220]: E0115 19:09:43.637690 1220 docker_sandbox.go:205] Failed to stop sandbox "fea94c9f46923806c177e4a158ffe3494fe17638198f30498a024c3e8237f648": Error response from daemon: {"message":"No such container: fea94c9f46923806c177e4a158ffe3494fe17638198f30498a024c3e8237f648"}
由于<TROUBLING_POD>-1545236220-ds0v1
cronjob 和一些错误配置,正在启动,在这些 pod 的运行过程中发生了错误,并且正在启动更多的 pod。
所以我删除了所有作业及其相关的 pod。所以我有一个集群没有运行与我的 cronjob 相关的作业/pod,并且仍然看到相同的错误消息淹没日志。
我做了:
1) 在所有节点上重启 docker 和 kubelet。
2)重启整个控制平面
以及 3) 重新启动所有节点。
但是即使没有这样的 pod 被启动,日志仍然被相同的错误消息淹没。
所以我不知道如何阻止 kubelet 抛出错误。
有没有办法重置我正在使用的网络插件?还是做点别的?