1

我们已经开始使用 prometheus 来监控我们的基础设施。一项服务配置了以下警报:

  • (缺席(up{job="service"}) 或 (up{job="service"} == 0)+1) == 1

这样,如果“up”为零或无法达到任何指标,我们就会收到警报。

现在我们想要一个显示服务“正常运行时间”的 grafana“单一统计”面板,但“缺席”不能与“avg_over_time”一起使用,有一个选项可以在我们的正常运行时间面板中包含“缺席”之类的内容吗?

4

1 回答 1

1

您可以通过以下方式对其进行近似:

sum_over_time(up{job="service"}[24h]) / sum_over_time(up{job="prometheus"}[24h])

这会将记录您的服务“正常”(过去 24 小时内)的样本数除以记录 Prometheus “正常”的样本数。

否则,您可以使用记录规则来记录类似于警报条件的内容,如果您的服务已启动,则值为 1,否则为 0。然后您可以使用avg_over_time()该指标。

于 2018-07-24T14:23:56.367 回答