1

我们的网站在 Google App Engine 上运行,并且我们设置了监控和正常运行时间警报。

我们希望能够以 % 的形式报告站点正常运行时间,如果可以从 6 个位置中的任何一个位置访问该站点,则该站点被视为正常运行:

  • 如果位置 A 无法访问该站点,但位置 B、C、D、E 和 F 可以。该网站已上线。
  • 如果位置 A、B、C、D 和 E 无法访问该站点,但位置 F 可以。该网站已上线。
  • 如果位置 A、B、C、D、E 和 F 无法访问该站点。该网站已关闭。

目前,百分比计算是:(1 - 失败检查的总数)/(检查的总数)。不幸的是,这意味着正常运行时间受到无法访问该站点的单个位置的影响。

是否可以获得我们所追求的正常运行时间计算?

4

1 回答 1

0

您可以为此创建一个正常运行时间图表
如果您按应用程序对数据进行分组,并将聚合器设置为fraction true,则仅当所有正常运行时间检查都失败时,图表才会达到零。
查询看起来像这样(这是针对 VM 实例):

fetch gce_instance
| metric 'monitoring.googleapis.com/uptime_check/check_passed'
| filter (metric.check_id == 'uptime-1')
| group_by 1m, [value_check_passed_count_true: count_true(value.check_passed)]
| every 1m
于 2021-04-21T11:34:32.143 回答