我们在 Google Cloud (GKE) 上作为托管 Kubernetes 集群运行,并使用 Prometheus 抓取它。
我的问题与此类似,但我想知道在 K8s 集群中需要注意哪些最重要的指标并可能发出警报?
这是一个 K8s 而不是 Prometheus 的问题,但我真的很感激一些提示。如果我的问题含糊不清,请告诉我,以便我对其进行改进。
我们在 Google Cloud (GKE) 上作为托管 Kubernetes 集群运行,并使用 Prometheus 抓取它。
我的问题与此类似,但我想知道在 K8s 集群中需要注意哪些最重要的指标并可能发出警报?
这是一个 K8s 而不是 Prometheus 的问题,但我真的很感激一些提示。如果我的问题含糊不清,请告诉我,以便我对其进行改进。
etcd 是 Kubernetes 的基础。因此,有一套好的警报是很重要的。我们写了这篇博文并为其创建了警报规则,并在最后提供了一个基本集。
Prometheus 格式的重要指标的其他来源是 Kubelet 和 cAdvisor、API 服务器以及相当新的kube-state-metrics。对于那些,不幸的是,我不知道有任何与 etcd 一样的公共警报规则集。
通常,您希望确保作为应用程序的组件完美运行,例如:
up
公制)然后是 Kubernetes 业务逻辑方面,例如:
不幸的是,这不是一个简单的解决方案,但是编写大致涵盖上述示例范围的警报规则应该会让你走得很远。