azure - Azure 上的 Kubernetes - 活跃度和就绪度探测失败 - 活跃度探测失败并连接：连接被拒绝

Question

我是 Azure 部署、kubernetes 和 HA 实现的菜鸟。当我将运行状况探测作为应用程序部署的一部分实施时，运行状况探测失败，当我尝试通过 URL 访问应用程序时出现 503（内部服务器错误）或 502（错误网关）错误。当我删除运行状况探测时，我可以使用其 URL 成功访问该应用程序。

在实施 Azure devops 管道使用的运行状况探测时，我使用以下 yaml 部署配置。该应用程序在 5 分钟内即可使用，因此我将initialDelaySeconds运行状况探测的设置为300s.

apiVersion: apps/v1
kind: Deployment
metadata:
   name: myApp
spec:
   ... 
   template:
     metadata:
       labels:
         app: myApp
     spec:
        ...
        containers:
          - name: myApp
            ...
            ports:
              - containerPort: 5000          
            ...
            readinessProbe:
              tcpSocket:
                  port: 5000
              initialDelaySeconds: 300
              periodSeconds: 5
              successThreshold: 1
              failureThreshold: 3
            livenessProbe:
               tcpSocket:
                  port: 5000
               periodSeconds: 30 
               initialDelaySeconds: 300
               successThreshold: 1
               failureThreshold: 3

...

当我执行部署并描述 pod 时，我会在输出底部的“事件”下看到以下内容：

  Type     Reason     Age                   From                             Message
  ----     ------     ----                  ----                             -------
  Warning  Unhealthy  2m1s (x288 over 86m)  kubelet, aks-vm-id-appears-here  Readiness probe failed: dial tcp 10.123.1.23:5000: connect: connection refused

（这令人困惑，因为它将年龄声明为 2m1s - 但initialDelaySeconds大于这 - 所以我不确定它为什么将其报告为年龄）

就绪探测随后失败并出现相同的错误。IP 号与我的 pod 的 IP 匹配，我Containers在 pod 描述中看到了这一点：

Containers:
....
Port:           5000/TCP

liveness 和 readiness 探针的失败会导致 Pod 不断地被终止和重新启动。

该应用程序有一个默认index.html页面，所以我相信如果健康探测能够连接，它应该会收到 200 响应。

由于运行状况探测失败，因此 pod IP 不会分配给端点对象，因此不会分配给服务。

如果我从部署中注释掉readinessProbeand livenessProbe，当我通过浏览器使用 URL 时，应用程序会成功运行，并且 pod IP 会成功分配为服务可以与之通信的端点。端点地址的格式为 10.123.1.23:5000 - 即端口 5000 似乎是 pod 的正确端口。

我不明白为什么健康探测器无法连接？对我来说，它应该尝试连接一个看起来像 10.123.1.23:5000 的 IP，这看起来是正确的。

端口可能需要超过 300 秒才能打开，但我不知道有什么方法可以检查。如果我在 pod 上输入 bash 会话，watch则不可用（我读到它watch ss -lnt可用于检查端口可用性）。

以下答案建议增加initialDelaySeconds，但我已经尝试过 - https://stackoverflow.com/a/51932875/1549918

我看到了这个问题 - 但资源利用率（例如 CPU/RAM）不是问题活跃度和就绪性探测连接被拒绝

更新

如果我从 pod 的副本 curl 到https://10.123.1.23:5000，我会收到类似的错误 ( Failed to connect to ...the IP.. port 5000: Connection refused)。为什么这会失败？我读到了一些内容，表明尝试从另一个 pod 进行此连接也可能表明运行状况探测的可达性。

score 1 · Accepted Answer

如果您不确定您的应用程序是否正确启动，请将其替换为已知良好的图像。例如httpd

将端口更改为 80，将图像更改为 httpd。

您可能还想增加运行状况检查的超时时间，因为它默认为 1 秒到 timeoutSeconds=5

此外，如果您的图像是一个 Web 应用程序，那么最好使用http 探针

score 0 · Accepted Answer

你的陈述

该应用程序有一个默认的 index.html 页面，所以我相信如果健康探测能够连接，它应该会收到 200 响应。

是不正确的。

您正在执行 tcpSocket 检查。尝试切换到：

  livenessProbe:
    failureThreshold: 3
    httpGet:
      path: /
      port: 5000
      scheme: HTTP

azure - Azure 上的 Kubernetes - 活跃度和就绪度探测失败 - 活跃度探测失败并连接：连接被拒绝

2 回答 2

Related

Reference