prometheus - 如何计算 Prometheus 警报中触发的警报并将其附加到警报标签？

Question

例如，我有 2 台主机，当 CPU > 90% 时会触发警报。我可以打开 Prometheus UI 和警报管理器 UI，我看到 2 台主机发出警报。

我使用 webhook 作为接收器，我想获取每个主机的 CPU>90% 的警报计数，我该如何实现？

我考虑是否可以从某个地方获取计数值，然后我可以将其附加到警报标签中，最后我可以从 webhook 界面中的标签中获取值。

我提到了普罗米修斯触发的计数警报，它们使用更改功能，但如果值没有改变（假设 CPU 保持 90%），它无法覆盖。

score 0 · Accepted Answer

考虑到，我认为 Prometheus 和 Alert manager 不支持这种情况，因为它没有意义。

对于用户，如果他/她想知道在过去 1 小时内特定规则触发了多少警报（假设 CPU > 90%），他们将只关注收到了多少警报，而不是触发了多少警报通过普罗米修斯。

众所周知，Alert Manger 有“group_wait”、“repeat_interval”和“Inhibited”规则，这些参数会影响 Alert Manager 发出警报的数量和频率。即使我可以得到 Prometheus 触发的警报时间，但这个数字对用户来说是错误的，因为 Alert Manger 可能会“抑制”警报。

prometheus - 如何计算 Prometheus 警报中触发的警报并将其附加到警报标签？

1 回答 1

Related

Reference