kubernetes - kube-dns 错误：来自意外来源的回复

Question

我对 kube-dns 有一个奇怪的错误。

环境：集群有一个主节点和几个节点，部署在 AWS 上，带有 kops。Kubernetes 版本 1.8.4。

问题是我的 pod 中的 DNS 名称解析（集群内部或外部名称）存在缺陷。经过故障排除后，我了解到只有在特定节点上安排 pod 时才会出现问题，该节点是 kube-dns pod 的副本之一正在运行的节点。

这些是我的 kube-dns pod：

$ kubectl -n kube-system get po -l k8s-app=kube-dns -o wide
NAME                        READY     STATUS    RESTARTS   AGE       IP             NODE
kube-dns-7f56f9f8c7-2ztbn   3/3       Running   0          2d        100.96.8.239   node01
kube-dns-7f56f9f8c7-h5w29   3/3       Running   0          17d       100.96.7.114   node02

如果我运行一个测试 POD 强制它运行node02一切似乎都很好。我可以毫无问题地解析任何（有效的）DNS 名称。

如果我在名称解析上运行相同的测试 PODnode01是不稳定的：有时它会失败（大约 50% 的时间）并出现以下错误

$ dig google.com
;; reply from unexpected source: 100.96.8.239#53, expected 100.64.0.10#53

其余时间它完美无瑕：

$ dig google.com

; <<>> DiG 9.10.4-P3 <<>> google.com
;; global options: +cmd
;; Got answer:
;; ->>HEADER<<- opcode: QUERY, status: NOERROR, id: 24454
;; flags: qr rd ra; QUERY: 1, ANSWER: 6, AUTHORITY: 0, ADDITIONAL: 1

;; OPT PSEUDOSECTION:
; EDNS: version: 0, flags:; udp: 4096
;; QUESTION SECTION:
;google.com.                    IN      A

;; ANSWER SECTION:
google.com.             60      IN      A       209.85.202.100
google.com.             60      IN      A       209.85.202.101
google.com.             60      IN      A       209.85.202.102
google.com.             60      IN      A       209.85.202.113
google.com.             60      IN      A       209.85.202.138
google.com.             60      IN      A       209.85.202.139

;; Query time: 2 msec
;; SERVER: 100.64.0.10#53(100.64.0.10)
;; WHEN: Mon Jan 08 10:46:42 UTC 2018
;; MSG SIZE  rcvd: 135

/etc/resolv.conf正确指向kube-dns服务的 IP 地址：

$ head -n 1 /etc/resolv.conf 
nameserver 100.64.0.10

$ kubectl -n kube-system get svc kube-dns 
NAME       TYPE        CLUSTER-IP    EXTERNAL-IP   PORT(S)         AGE
kube-dns   ClusterIP   100.64.0.10   <none>        53/UDP,53/TCP   33d

显然，node01仅当服务将请求转发到在其自身kube-dns上运行的 pod 实例时，node01才会触发错误。

我尝试重新启动 kube-proxy，node01但问题仍然存在。

我敢打赌，重新启动/重新创建node01会使问题消失，但我需要确保这个问题不会再次发生。

有人知道发生了什么吗？

score 6 · Accepted Answer

我在 github 上发现了一个与我遇到的问题非常相似的问题，并且在那里发布的解决方案似乎有效。

基本上，我需要使用以下命令加载内核模块：

modprobe br_netfilter

当然，YMMV

score 1 · Accepted Answer

对于以下解决方案的 centos 对我有用

https://github.com/kubernetes/kubernetes/issues/21613#issuecomment-363859075

echo '1' > /proc/sys/net/bridge/bridge-nf-call-iptables

kubernetes - kube-dns 错误：来自意外来源的回复

2 回答 2

Related

Reference