我想创建一个 Grafana“singlestat”面板,根据测试失败指标的存在与否显示正常运行时间或 SLA“百分比”。
e2e_tests_failure_count
对于不同的测试框架,我已经有了适当的度量标准。这意味着以下查询返回观察到的测试失败的总和:
sum(e2e_tests_failure_count{kubernetes_name=~"test-framework-1|test-framework-2|test-framework-3",kubernetes_namespace="platform-edge"})
我已经设法创建了一个图表,如果一切正常,则为“1”,如果有任何测试失败,则为“0”:
1 - clamp_max(sum(e2e_tests_failure_count{kubernetes_name=~"test-framework-1|test-framework-1|test-framework-1",kubernetes_namespace="platform-edge"}), 1)
我现在想要一个百分比值来显示一段时间内的“正常运行时间”(= 环境“健康”的时间量),例如过去 5 天。类似“99.5%”或者更适合屏幕截图的“65%”。
我试过这样的事情:
(1 - clamp_max(sum(e2e_tests_failure_count{kubernetes_name=~"service-cvi-e2e-tests|service-svhb-e2e-tests|service-svh-roundtrip-e2e-tests",kubernetes_namespace="platform-edge"}), 1))[5d]
但这只会导致解析器错误。谷歌搜索并没有真正让我更进一步,所以我希望我能在这里找到帮助:)