kubernetes - Redis Pod 无法加入 Redis 集群

Question

我想在 kubernetes 中创建 6 个节点的 redis 集群。我正在使用 Minikube 运行kubernetes。

下面是我创建 6 节点集群的实现。

kind: StatefulSet
metadata:
  generation: 1
  labels:
    app: demo-app
  name: demo-app
  namespace: default
spec:
  podManagementPolicy: OrderedReady
  replicas: 6
  revisionHistoryLimit: 10
  selector:
    matchLabels:
      app: demo-app
  serviceName: ""
  template:
    metadata:
      creationTimestamp: null
      labels:
        app: demo-app
    spec:
      containers:
      - command:
        - redis-server
        - --port 6379
        - --cluster-enabled yes
        - --cluster-node-timeout 5000
        - --appendonly yes
        - --appendfilename appendonly-6379.aof
        image: redis:latest
        imagePullPolicy: Always
        name: demo-app
        resources: {}
        terminationMessagePath: /dev/termination-log
        terminationMessagePolicy: File
        volumeMounts:
         - name: redis-pvc
           mountPath: /var
      - image: nginx:1.12
        imagePullPolicy: IfNotPresent
        name: redis-exporter
        resources: {}
        terminationMessagePath: /dev/termination-log
        terminationMessagePolicy: File
      dnsPolicy: ClusterFirst
      restartPolicy: Always
      schedulerName: default-scheduler
      securityContext: {}
      terminationGracePeriodSeconds: 30
  updateStrategy:
    rollingUpdate:
      partition: 0
    type: RollingUpdate

  volumeClaimTemplates:
    - metadata: 
        name: redis-pvc
      spec: 
          accessModes: 
           - ReadWriteOnce
          resources:
             requests:
                 storage: 1Gi

创建有状态集后，我正在从其中一个 pod 中执行 redis create cluster 命令。

 redis-cli --cluster create 172.17.0.4:6379 172.17.0.5:6379  172.17.0.6:6379  172.17.0.7:6379  172.17.0.8:6379  172.17.0.9:6379 --cluster-replicas 1

这些都是 pod 的 ips。有了这个我可以启动我的集群。但是一旦我使用手动删除单个 pod

kubernetes delete pod <podname>

例如删除IP地址为：172.17.0.6:6379的redis节点，它应该是master。删除后redis集群状态为：

127.0.0.1:6379> cluster nodes
1c8c238c58d99181018b37af44c2ebfe049e4564 172.17.0.9:6379@16379 slave 4b75e95772887e76eb3d0c9518d13def097ce5fd 0 1579496695000 6 connected
96e6be88d29d847aed9111410cb0f790db068d0e 172.17.0.8:6379@16379 slave 0db23edf54bb57f7db1e2c9eb182ce956229d16e 0 1579496696596 5 connected
c8be98b16a8fa7c1c9c2d43109abafefc803d345 172.17.0.7:6379@16379 master - 0 1579496695991 7 connected 10923-16383
0db23edf54bb57f7db1e2c9eb182ce956229d16e 172.17.0.4:6379@16379 myself,master - 0 1579496694000 1 connected 0-5460
4daae1051e6a72f2ffc0675649e9e2dad9430fc4 172.17.0.6:6379@16379 master,fail - 1579496680825 1579496679000 3 disconnected
4b75e95772887e76eb3d0c9518d13def097ce5fd 172.17.0.5:6379@16379 master - 0 1579496695000 2 connected 5461-10922

一段时间后它变为：

127.0.0.1:6379> cluster nodes
1c8c238c58d99181018b37af44c2ebfe049e4564 172.17.0.9:6379@16379 slave 4b75e95772887e76eb3d0c9518d13def097ce5fd 0 1579496697529 6 connected
96e6be88d29d847aed9111410cb0f790db068d0e 172.17.0.8:6379@16379 slave 0db23edf54bb57f7db1e2c9eb182ce956229d16e 0 1579496696596 5 connected
c8be98b16a8fa7c1c9c2d43109abafefc803d345 172.17.0.7:6379@16379 master - 0 1579496698031 7 connected 10923-16383
0db23edf54bb57f7db1e2c9eb182ce956229d16e 172.17.0.4:6379@16379 myself,master - 0 1579496697000 1 connected 0-5460
4daae1051e6a72f2ffc0675649e9e2dad9430fc4 :0@0 master,fail,noaddr - 1579496680825 1579496679000 3 disconnected
4b75e95772887e76eb3d0c9518d13def097ce5fd 172.17.0.5:6379@16379 master - 0 1579496697028 2 connected 5461-10922

由于 redis 集群提供了自动故障转移，但 pod 的 redis 无法自动加入集群？

或者我应该手动将该 pod 加入集群吗？

score 2 · Accepted Answer

我已经解决了这个问题，并使用这个有状态的 set yaml 创建了一个 redis 集群。问题是我没有在持久卷中安装集群配置文件。集群配置文件包含其他节点的位置。现在，集群配置文件将在 pod 重新启动时保持不变。

由于 redis 集群适用于 gossip 协议。它只需要一个活动节点即可获得整个集群的配置。

现在有状态集的最终配置是：

apiVersion: apps/v1
kind: StatefulSet
metadata:
  generation: 1
  labels:
    app: demo-app
  name: demo-app
  namespace: default
spec:
  podManagementPolicy: OrderedReady
  replicas: 6 
  revisionHistoryLimit: 10
  selector:
    matchLabels:
      app: demo-app
  serviceName: ""
  template:
    metadata:
      creationTimestamp: null
      labels:
        app: demo-app
    spec:
      containers:
      - command:
        - redis-server
        - --port 6379
        - --cluster-enabled yes
        - --cluster-node-timeout 5000
        - --appendonly yes
        - --cluster-config-file /var/cluster-config.conf
        - --appendfilename appendonly-6379.aof
        image: redis
        imagePullPolicy: Always
        name: demo-app
        resources: {}
        terminationMessagePath: /dev/termination-log
        terminationMessagePolicy: File
        volumeMounts:
         - name: redis-pvc
           mountPath: /var
      - image: nginx:1.12
        imagePullPolicy: IfNotPresent
        name: redis-exporter
        resources: {}
        terminationMessagePath: /dev/termination-log
        terminationMessagePolicy: File
      dnsPolicy: ClusterFirst
      restartPolicy: Always
      schedulerName: default-scheduler
      securityContext: {}
      terminationGracePeriodSeconds: 30
  updateStrategy:
    rollingUpdate:
      partition: 0
    type: RollingUpdate

  volumeClaimTemplates:
    - metadata: 
        name: redis-pvc
      spec: 
          accessModes: 
           - ReadWriteOnce
          resources:
             requests:
                 storage: 1Gi

我所做的唯一更改是在启动 redis-server 时添加--cluster-config-file /var/cluster-config.conf参数。

score 1 · Accepted Answer

我强烈建议考虑使用 Sentinel 而不是 Redis 中的集群命令的 HA 选项。Sentinel 正是为此而设计的。

总的来说，根据我的经验，Redis 的架构并不能很好地融入 Kubernetes 网络。告诉 Redis 实例你的从属服务器在哪里，尤其是以编程方式可能是一场噩梦（正如你所看到的必须手动触发集群），尤其是当你认为 pod 到 pod 的通信不符合 Kubernetes 网络层次结构时。

我不确定集群命令将如何在 Kubernetes 内部发挥作用，尤其是对于 pod 的短暂性。

我实际上维护了一个试图规避这些问题的掌舵图。这提供了一种从集群外部广播 Redis 的机制。你可以在这里找到它。

扩展几个关于为什么这不起作用的场景：

如果你失去了原来的主人，你会如何告诉你的应用程序连接到新的主人？除非您有一些抽象层单独查询它们，询问谁是主人。在使用 Sentinel 时确实需要做更多的工作，它旨在规避这个确切的问题。
如果您删除一个从属服务器，因为它是通过 IP 绑定的，您将完全失去该从属服务器，因为将创建一个新的 veth，绑定到为您的集群定义的 CIDR 中的新 IP。6 个节点变为 5 个。您可以通过在 CIDR 上使用 /24 地址定义节点来解决此问题，但是您基本上是在为每个 Redis 实例部署一个节点，这似乎违背了协调者的观点。

kubernetes - Redis Pod 无法加入 Redis 集群

2 回答 2

Related

Reference