kubernetes - 如何调试 kubectl 申请 kube-flannel.yml？

Question

我正在尝试按照以下文档创建一个 kubernetes 集群：https ://kubernetes.io/docs/setup/independent/create-cluster-kubeadm/

首先，我在带有 Vagrant 的 VirtualBox 内的 Coreos (1520.9.0) 上安装了带有 docker 镜像的 kubeadm：

docker run -it \
    -v /etc:/rootfs/etc \
    -v /opt:/rootfs/opt \
    -v /usr/bin:/rootfs/usr/bin \
    -e K8S_VERSION=v1.8.4 \
    -e CNI_RELEASE=v0.6.0 \
    xakra/kubeadm-installer:0.4.7 coreos

这是我的 kubeadm 初始化：

kubeadm init --pod-network-cidr=10.244.0.0/16

运行命令时：

kubectl apply -f https://raw.githubusercontent.com/coreos/flannel/v0.9.1/Documentation/kube-flannel.yml

它返回：

clusterrole "flannel" configured
clusterrolebinding "flannel" configured
serviceaccount "flannel" configured
configmap "kube-flannel-cfg" configured
daemonset "kube-flannel-ds" configured

但是如果我检查“kubectl get pods --all-namespaces”

它返回：

NAMESPACE     NAME                              READY     STATUS             RESTARTS   AGE
kube-system   etcd-coreos1                      1/1       Running            0          18m
kube-system   kube-apiserver-coreos1            1/1       Running            0          18m
kube-system   kube-controller-manager-coreos1   0/1       CrashLoopBackOff   8          19m
kube-system   kube-scheduler-coreos1            1/1       Running            0          18m

我journalctl -f -u kubelet可以看到这个错误：Unable to update cni config: No networks found in /etc/cni/net.d

我怀疑命令有问题kubectl apply -f https://raw.githubusercontent.com/coreos/flannel/v0.9.1/Documentation/kube-flannel.yml

有没有办法知道为什么这个命令不起作用？我可以从任何地方获取一些日志吗？

score 4 · Accepted Answer

就在今晚，我使用kubespray在 CoreOS 上使用 flannel (vxlan) 配置了一个 vagrant 集群，我还对 flannel 如何成为 Kubernetes 中的 Pod 感到困惑

事实证明，如此处所示，他们正在使用来自 quay.io的 flannel-cni映像，使用 flannel side-car 和 hostDir 卷挂载来写出 CNI 文件；它输出（将 CNI 配置为使用 flannel），然后（配置 flannel 使用的子网和后端）。cni-conf.jsonnet-conf.json

我希望 jinja2 mustache 语法不会混淆答案，但我发现看到 Kubernetes 人员如何选择“真正地”这样做来与DaemonSetflannel-cni README 中给出的示例进行比较和对比，这非常有趣。我想这是一个很长的说法：尝试 flannel-cni README 中的描述符，然后如果它不起作用，看看它们是否与已知工作的 kubespray 设置有某种不同

更新：作为一个具体示例，请注意文档 yaml不包含--iface=开关，如果您的 Vagrant 设置同时使用 NAT 和“private_network”，那么这可能意味着 flannel 绑定到eth0（NAT 之一）而不是eth1更多静态IP。我看到了文档中提到的警告，但无法立即回忆起在哪里引用它

更新 2

有没有办法知道为什么这个命令不起作用？我可以从任何地方获取一些日志吗？

kube-controller-manager-coreos1几乎总是以相同的方式访问kubectl --namespace=kube-system logs kube-controller-manager-coreos1Pod的日志（即使是静态定义-p的日志，例如但仅持续几秒钟，而不是无限期），并且偶尔kubectl --namespace=kube-system describe pod kube-controller-manager-coreos1会在底部的“事件”部分中显示有用的信息，如果因原因终止，则在顶部附近的“状态”块中显示有用的信息

在非常严重的故障情况下，例如 apiserver 无法启动（因此kubectl logs不会执行任何操作），然后 ssh-ing 到节点并使用和的混合journalctl -u kubelet.service --no-pager --lines=150来docker logs ${the_sha_or_name}尝试查看任何错误文本。在后一种情况下，您几乎肯定需要docker ps -a找到退出容器的 sha 或名称，但同样的“仅几秒钟”也适用，因为死容器将在一段时间后被修剪。

在 vagrant 的情况下，可以通过以下几种方式之一 ssh 进入 VM：

vagrant ssh coreos1
vagrant ssh-config > ssh-config && ssh -F ssh-config coreos1
或者如果它有一个“private_network”地址，例如 192.168.99.101 等，那么你通常可以ssh -i ~/.vagrant.d/insecure_private_key core@192.168.99.101，但前两个中的一个几乎总是更方便

kubernetes - 如何调试 kubectl 申请 kube-flannel.yml？

1 回答 1

Related

Reference