kubernetes - 如何提醒 Kubernetes 集群健康？

Question

我们在 Google Cloud (GKE) 上作为托管 Kubernetes 集群运行，并使用 Prometheus 抓取它。

我的问题与此类似，但我想知道在 K8s 集群中需要注意哪些最重要的指标并可能发出警报？

这是一个 K8s 而不是 Prometheus 的问题，但我真的很感激一些提示。如果我的问题含糊不清，请告诉我，以便我对其进行改进。

score 5 · Accepted Answer

etcd 是 Kubernetes 的基础。因此，有一套好的警报是很重要的。我们写了这篇博文并为其创建了警报规则，并在最后提供了一个基本集。

Prometheus 格式的重要指标的其他来源是 Kubelet 和 cAdvisor、API 服务器以及相当新的kube-state-metrics。对于那些，不幸的是，我不知道有任何与 etcd 一样的公共警报规则集。

通常，您希望确保作为应用程序的组件完美运行，例如：

然后是 Kubernetes 业务逻辑方面，例如：

不幸的是，这不是一个简单的解决方案，但是编写大致涵盖上述示例范围的警报规则应该会让你走得很远。

1 回答 1