grafana - Grafana 中滑动窗口的 Prometheus 正常运行时间或 SLA 百分比

Question

我想创建一个 Grafana“singlestat”面板，根据测试失败指标的存在与否显示正常运行时间或 SLA“百分比”。

e2e_tests_failure_count对于不同的测试框架，我已经有了适当的度量标准。这意味着以下查询返回观察到的测试失败的总和：

sum(e2e_tests_failure_count{kubernetes_name=~"test-framework-1|test-framework-2|test-framework-3",kubernetes_namespace="platform-edge"})

我已经设法创建了一个图表，如果一切正常，则为“1”，如果有任何测试失败，则为“0”：

1 - clamp_max(sum(e2e_tests_failure_count{kubernetes_name=~"test-framework-1|test-framework-1|test-framework-1",kubernetes_namespace="platform-edge"}), 1)

我现在想要一个百分比值来显示一段时间内的“正常运行时间”（= 环境“健康”的时间量），例如过去 5 天。类似“99.5%”或者更适合屏幕截图的“65%”。

我试过这样的事情：

(1 - clamp_max(sum(e2e_tests_failure_count{kubernetes_name=~"service-cvi-e2e-tests|service-svhb-e2e-tests|service-svh-roundtrip-e2e-tests",kubernetes_namespace="platform-edge"}), 1))[5d]

但这只会导致解析器错误。谷歌搜索并没有真正让我更进一步，所以我希望我能在这里找到帮助:)

score 5 · Accepted Answer

刚刚弄清楚了这一点，我相信它会产生正确的结果。您必须使用记录规则，因为您无法在单个查询中从函数的实例向量结果创建范围向量，正如您已经发现的那样（您会收到解析错误）。因此，我们将函数结果（将是一个实例向量）记录为新的时间序列，并将其用作不同查询中的指标名称，然后您可以在其中添加[5d]以选择范围。

我们每分钟针对我们的所有服务运行多次测试，并且每个服务（“服务”是一个标签，其中每个服务的名称是标签值）都有不同数量的与之关联的测试，但是如果一个鉴于服务失败，我们认为这是一个“停机时刻”。（给定服务的测试失败次数在带有status="failure"标签值的指标中捕获。）我们将失败次数限制为 1，因此我们的值只有 0 和 1，因此可以转换“失败值时间序列”改为“成功值时间序列”，使用不等式运算符和bool修饰符。（有关使用bool.) 因此，第一个记录的指标的结果对于在该抓取间隔期间所有测试都成功的每个服务都是 1，而对于该服务至少有一个测试失败的服务是 0。

如果对于任何给定分钟返回的所有值，服务的失败次数 > 0，我们认为该服务在该分钟内“关闭”。（因此，如果我们在给定的分钟内既失败又成功，这不算作停机时间。）这就是为什么我们有第二个记录的指标来产生实际的“这一分钟”布尔值。第二个记录的指标建立在第一个的基础上，这是可以的，因为 Prometheus 文档说记录的指标在每个组中按顺序运行。

因此，任何给定持续时间的“正常运行时间”是“这一分钟的正常运行时间”值的总和（即每上升 1 分钟）除以持续时间的总分钟数，无论持续时间是多少。

由于我们已经定义了一个名为“minute_up_bool”的记录指标，因此我们可以在我们想要的任何范围内创建正常运行时间图。（顺便说一句，记录的指标仅在您首次定义它们之后生成，因此您不会将昨天的时间序列数据包含在您今天定义的记录指标中。）您可以在 Grafana 中输入一个查询以显示正常运行时间百分比超过最近 5 天的移动窗口：

sum_over_time(minute_up_bool[5d]) * 100 / (5 * 24 * 60)

所以这是我们的录制规则配置：

groups:
- name: uptime
  interval: 1m
  # Each rule here builds on the previous one.
  rules:
  # Get test results as pass/fail => 1/0
  # (label_replace() removes confusing status="failure" label value)
  - record: test_success_bool
    expr: label_replace(clamp_max(test_statuses_total{status="failure"}, 1), "status", "", "", "") != bool 1
  # Get the uptime as 1 minute range where the sum of successes is not zero
  - record: minute_up_bool
    expr: clamp_max(sum_over_time(test_success_bool[1m]), 1)

grafana - Grafana 中滑动窗口的 Prometheus 正常运行时间或 SLA 百分比

1 回答 1

Related

Reference