我有大约 1000 个使用 HTTP 探测的目标。
job="http_2xx", env="prod", instance="x.x.x.x"
job="http_2xx", env="test", instance="y.y.y.y"
job="http_2xx", env="dev", instance="z.z.z.z"
我想知道目标:
- 过去 10 分钟内 env 的失败率。
- env 在过去 10 分钟内的失败率增加。
- 好奇以下是做什么的:
sum(increase(probe_success{job="http_2xx"}[10m]))
rate(probe_success{job="http_2xx", env="prod"}[5m]) * 100
我已经达到的最接近的是在 10 分钟内通过 env 找到操作:
avg(avg_over_time(probe_success{job="http_2xx", env="prod"}[10m]) * 100)