grafana - Prometheus 使用 avg_over_time 与缺席

Question

我们已经开始使用 prometheus 来监控我们的基础设施。一项服务配置了以下警报：

这样，如果“up”为零或无法达到任何指标，我们就会收到警报。

现在我们想要一个显示服务“正常运行时间”的 grafana“单一统计”面板，但“缺席”不能与“avg_over_time”一起使用，有一个选项可以在我们的正常运行时间面板中包含“缺席”之类的内容吗？

score 1 · Accepted Answer

您可以通过以下方式对其进行近似：

sum_over_time(up{job="service"}[24h]) / sum_over_time(up{job="prometheus"}[24h])

这会将记录您的服务“正常”（过去 24 小时内）的样本数除以记录 Prometheus “正常”的样本数。

否则，您可以使用记录规则来记录类似于警报条件的内容，如果您的服务已启动，则值为 1，否则为 0。然后您可以使用avg_over_time()该指标。

1 回答 1