1

我有一个 PromQL 查询,它查看每个分位数的最大延迟并在 Grafana 中显示数据,但它显示来自重新部署且不再存在的 pod 的数据。豆荚比 15 天的陈旧期更年轻。

这是查询:max(latency{quantile="..."})

发现的最大延迟是从它被限制的时候开始的,在它重新部署并恢复正常后不久,现在我只想查看当前活动的最大延迟。

到目前为止,我发现的所有关于过时的信息都表明它应该在幕后进行过滤,但看起来它并没有在当前设置中发生,我无法弄清楚我应该改变什么。

在查询中手动添加特定实例 ID 时 - 它运行良好,但 ID 会在重新部署后更改:max(latency{quantile="...", exported_instance="ID"})

这是我发现的一长串类似问题,有些没有回答,有些没有要求相同。我确实发现有些相关但不能以可持续方式解决问题的想法是:

以下链接中没有帮助的建议

  • 更改陈旧期,不会起作用,因为它会影响整个系统
  • 重启普罗米修斯,不会工作,因为每次重新部署一个pod时都不能这样做
  • 列出每台机器的每个图表,不适用于max查询

类似问题的链接

最终目标

正在显示当前所有源之间的最大延迟,从不再存在的源中删除数据。

4

1 回答 1

0

您可以使用名为up的自动生成的指标将您所需的指标与其他指标隔离开来。您可以轻松地确定哪些指标源与up指标脱机。

up{job="", instance=""}:如果实例健康,即可达,则为 1,如果抓取失败,则为 0。

于 2019-08-09T10:32:19.720 回答