Azure 的 Twitter 支持(而不是 ServerFault.com)要求我在此处发布此内容。
我们的 Kubernetes 环境已经运行了一个多星期,无需更改,24 个 VHD 都使用 Azure 上的容器服务。
然后我们突然收到所有服务都停止工作的警报。所有使用 Persistent Volume Claims 的 pod 都停留在 ContainerCreating 上。快速kubectl describe pod podname
展示:
Unable to mount volumes for pod "***-1370023040-st581_default(9b050936-1baa-11e7-9b77-000d3ab513dc)": timeout expired waiting for volumes to attach/mount for pod "default"/"***-1370023040-st581". list of unattached/unmounted volumes=[***-persistent-storage]
和
Error syncing pod, skipping: timeout expired waiting for volumes to attach/mount for pod "default"/"***-1370023040-st581". list of unattached/unmounted volumes=[***-persistent-storage]
在所有的豆荚上。
在 Azure 门户中,我可以看到代理只有代理操作系统 VHD 作为磁盘附加。手动尝试添加磁盘失败:
Failed to update disks for the virtual machine 'k8s-agent-CD93CDEA-0'. Error: A disk named '***mgmt-dynamic-pvc-018bdc6e-161a-11e7-8ca8-000d3ab513dc.vhd' already uses the same VHD URL …https://***.blob.core.windows.net/vhds/***mgmt-dynamic-pvc-018bdc6e-161a-11e7-8ca8-000d3ab513dc.vhd ….
重新启动代理/主机也不能解决问题。
我们使用 F16S 作为代理,支持 32 个数据盘。
您如何重新连接 VHD 以重新开始?