kubernetes - 当 k8s 集群中的特定 pod 进入 Failed 状态时如何配置警报？

Question

我们在spark-operator的帮助下在 k8s 集群上运行 spark 。我们使用prometheus进行监控。

我们想要配置一个警报，以便每当与 spark 作业相关的任何 pod 转换为Failed状态时，我们都应该收到警报。并且此警报规则应在过去 5 分钟内检查此类失败的 pod。

我们试图为此利用kube-state-metrics，但我们无法根据时间获取指标。在任何给定的时间点，度量kube_pod_status_phase{namespace="spark-operator",phase="Failed"}为我们提供了所有处于失败状态的 Pod 的列表。

非常欢迎对此提出任何建议或指导。

score 1 · Accepted Answer

1

sum_over_time (kube_pod_status_phase{namespace="spark-operator",phase="Failed"}[5m:1m]) > 0

于 2021-04-09T10:27:27.790 回答

1 回答 1