在本地 k8s 1.16 上使用 Ceph v1.14.10、Rook v1.3.8。在 10 天没有任何问题之后,我们决定排空一些节点,然后,所有移动的 pod 都无法再附加到它们的 PV,看起来 Ceph 集群坏了:
我的 ConfigMaprook-ceph-mon-endpoints
引用了 2 个缺失的 mon pod IP:
csi-cluster-config-json: '[{"clusterID":"rook-ceph","monitors":["10.115.0.129:6789","10.115.0.4:6789","10.115.0.132:6789"]}]
但
kubectl -n rook-ceph get pod -l app=rook-ceph-mon -o wide
NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS GATES
rook-ceph-mon-e-56b849775-4g5wg 1/1 Running 0 6h42m 10.115.0.2 XXXX <none> <none>
rook-ceph-mon-h-fc486fb5c-8mvng 1/1 Running 0 6h42m 10.115.0.134 XXXX <none> <none>
rook-ceph-mon-i-65666fcff4-4ft49 1/1 Running 0 30h 10.115.0.132 XXXX <none> <none>
这是正常的还是我必须运行一种“和解”任务来用新的 mon pod IP 更新 CM?
(可能与https://github.com/rook/rook/issues/2262有关)
我不得不手动更新:
- 秘密车头配置
- cm rook-ceph-mon-endpoints
- cm rook-ceph-csi-config