我已经开始注意到在我的 5 节点 1.7.10 k8s 集群中,安排在同一节点上的 pod 无法相互通信。nslookup 无法从该节点上的任何 pod 提供任何服务,但从不同节点运行时工作正常。不是确定这是否是 kube dns/flannel 问题,有关如何调试的任何指示?
为了解决这个问题,我必须在一个全新的节点上重新安排这些 pod。我试过重新启动法兰绒,它没有帮助。下次发生这种情况时,将重新启动 kube-dns pod。
- 例子
举个例子,我们在同一个节点上安排了 kafka 和 zk(运行良好,由另一个节点上的另一个 kafka pod 使用)。而且kafka找不到zk。nslookup 在该 kafka pod 中失败,但在任何其他 pod 中都可以正常工作。这不是 kafka 问题,因为我们在不同 pod 之间的其他节点上也有这个问题。我如何检查 kube-dns 条目 - kube-dns 日志似乎显示所有设置都很好,没有错误
```
[2017-11-22 12:00:56,194] FATAL Fatal error during KafkaServerStartable startup. Prepare to shutdown (kafka.server.KafkaServerStartable)
org.I0Itec.zkclient.exception.ZkTimeoutException: Unable to connect to zookeeper server 'zookeeper:2181' with timeout of 6000 ms
at org.I0Itec.zkclient.ZkClient.connect(ZkClient.java:1233)
at org.I0Itec.zkclient.ZkClient.<init>(ZkClient.java:157)
at org.I0Itec.zkclient.ZkClient.<init>(ZkClient.java:131)
at kafka.utils.ZkUtils$.createZkClientAndConnection(ZkUtils.scala:106)
at kafka.utils.ZkUtils$.apply(ZkUtils.scala:88)
at kafka.server.KafkaServer.initZk(KafkaServer.scala:329)
at kafka.server.KafkaServer.startup(KafkaServer.scala:187)
at kafka.server.KafkaServerStartable.startup(KafkaServerStartable.scala:39)
at kafka.Kafka$.main(Kafka.scala:67)
at kafka.Kafka.main(Kafka.scala)
[2017-11-22 12:00:56,208] INFO shutting down (kafka.server.KafkaServer)
```