1

我们在spark-operator的帮助下在 k8s 集群上运行 spark 。我们使用prometheus进行监控。

我们想要配置一个警报,以便每当与 spark 作业相关的任何 pod 转换为Failed状态时,我们都应该收到警报。并且此警报规则应在过去 5 分钟内检查此类失败的 pod。

我们试图为此利用kube-state-metrics,但我们无法根据时间获取指标。在任何给定的时间点,度量kube_pod_status_phase{namespace="spark-operator",phase="Failed"}为我们提供了所有处于失败状态的 Pod 的列表。

非常欢迎对此提出任何建议或指导。

4

1 回答 1

1
sum_over_time (kube_pod_status_phase{namespace="spark-operator",phase="Failed"}[5m:1m]) > 0
于 2021-04-09T10:27:27.790 回答