0

我最近将我的 GKE 集群从 1.10.x 升级到了 1.11.x,从那时起,我的calico-nodepod 无法连接到 etcd 集群并最终CrashLoopBackOff由于 livenessProbe 错误而告终。

我看到calico-etcdDaemonSet 需要状态 0 并且对此感到疑惑。节点选择器位于node-role.kubernetes.io/master=

从此类calico-nodes 的日志中:

2018-12-19 19:18:28.989 [INFO][7] etcd.go 373: Unhandled error: client: etcd cluster is unavailable or misconfigured; error #0: client: endpoint http://10.96.232.136:6666 exceeded header timeout

2018-12-19 19:18:28.989 [INFO][7] startup.go 254: Unable to query node configuration Name="gke-brokerme-ubuntu-pool-852d0318-j5ft" error=client: etcd cluster is unavailable or misconfigured; error #0: client: endpoint http://10.96.232.136:6666 exceeded header timeout

DaemonSet 的状态:

NAME                       DESIRED   CURRENT   READY   UP-TO-DATE   AVAILABLE   NODE SELECTOR                                  AGE
calico-etcd                0         0         0       0            0           node-role.kubernetes.io/master=                3d
calico-node                2         2         0       2            0           <none>                                         3d

k get nodes --show-labels

NAME                                     STATUS   ROLES    AGE   VERSION         LABELS
gke-brokerme-ubuntu-pool-852d0318-7v4m   Ready    <none>   4d    v1.11.5-gke.5   beta.kubernetes.io/arch=amd64,beta.kubernetes.io/fluentd-ds-ready=true,beta.kubernetes.io/instance-type=n1-standard-2,beta.kubernetes.io/os=linux,cloud.google.com/gke-nodepool=ubuntu-pool,cloud.google.com/gke-os-distribution=ubuntu,failure-domain.beta.kubernetes.io/region=europe-west1,failure-domain.beta.kubernetes.io/zone=europe-west1-b,kubernetes.io/hostname=gke-brokerme-ubuntu-pool-852d0318-7v4m,os=ubuntu
gke-brokerme-ubuntu-pool-852d0318-j5ft   Ready    <none>   1h    v1.11.5-gke.5   beta.kubernetes.io/arch=amd64,beta.kubernetes.io/fluentd-ds-ready=true,beta.kubernetes.io/instance-type=n1-standard-2,beta.kubernetes.io/os=linux,cloud.google.com/gke-nodepool=ubuntu-pool,cloud.google.com/gke-os-distribution=ubuntu,failure-domain.beta.kubernetes.io/region=europe-west1,failure-domain.beta.kubernetes.io/zone=europe-west1-b,kubernetes.io/hostname=gke-brokerme-ubuntu-pool-852d0318-j5ft,os=ubuntu

我没有修改任何印花布清单,它们应该是 GKE 提供的 1:1 配置。

我希望calico-nodes 连接到我的 Kubernetes 集群的 etc,或者连接到 DaemonSetcalico-etcd提供的一个。由于在 GKE 中没有我可以控制的主节点,我有点明白为什么calico-etcd处于状态 0,但是,calico-nodes 应该连接到哪个等?我的小型和基本设置有什么问题?

4

1 回答 1

0

我们知道 GKE 1.11.x 中的 calico 崩溃循环问题。您可以通过升级到较新版本来解决此问题。,我建议您升级到没有此问题的版本“1.11.4-gke.12”或“1.11.3-gke.23”。

于 2018-12-20T17:51:14.037 回答