我正在使用 Kubernetes CronJobs 运行管理任务,并且当使用kube-state-metrics生成的作业之一失败时,Prometheus 会发出警报:
kube_job_status_failed{job="kube-state-metrics"} > 0
我想拥有它,以便当最近的作业通过时,清理失败的作业,以便警报停止触发。
CronJob 资源本身是否支持这种行为?
解决方法是让作业清理失败的作业作为最后一步,或者创建一个更复杂的警报规则以将最近的作业作为最终状态,但它们不是 IMO 最好的解决方案。
Kubernetes 版本:v1.15.1