可以在普罗米修斯警报中添加嵌套查询吗?我正在使用 prometheus 来监控 kubernetes 集群。
如果节点已关闭,则会生成警报,但我想配置警报,以便如果任何节点已关闭,那么普罗米修斯不应该为在其上运行的 pod 和服务发送警报。
像这样的东西,
if(pod_down)
if(corresponding_node_down)
//dont send alert
//node down alert is in firing state
可以在普罗米修斯警报中添加嵌套查询吗?我正在使用 prometheus 来监控 kubernetes 集群。
如果节点已关闭,则会生成警报,但我想配置警报,以便如果任何节点已关闭,那么普罗米修斯不应该为在其上运行的 pod 和服务发送警报。
像这样的东西,
if(pod_down)
if(corresponding_node_down)
//dont send alert
//node down alert is in firing state
看看这个 Prometheus Alertmanager 配置。
链接:prometheus.io/docs/alerting/configuration/#inhibit_rule
抑制是在某些其他警报已经触发时抑制某些警报通知的概念。
示例:正在触发通知整个集群不可访问的警报。如果该特定警报正在触发,Alertmanager 可以配置为静音有关此集群的所有其他警报。这可以防止通知与实际问题无关的数百或数千个触发警报。
如果一个节点出现故障,那么 Kubernetes 应该会自动处理该节点并将服务转移到其他地方。因此,像这样的警报不是很有用。
我建议您对用户可见的症状(例如高延迟和错误率)发出警报,而不是针对单个原因(例如机器或容器关闭)发出警报。