2

我正在尝试收集应用程序的运行状态,如果发生错误,则使用 alertmanager 进行警报。

我阅读了有关度量类型的文档,似乎仪表 vec 是唯一合适的类型。目前我的指标定义是这样的(它在 Go 中,但你可以理解):

errored = prometheus.NewGaugeVec(
    prometheus.GaugeOpts{
        Name: "validate_errored"
    },
    []string{"module"},
)

发生错误时将报告 1。并且 alertmanager 被配置为在validate_errored变为 1 时发出警报。

但是现在我需要知道警报消息中的确切错误,所以我决定添加一个新标签:

errored = prometheus.NewGaugeVec(
    prometheus.GaugeOpts{
        Name: "validate_errored"
    },
    []string{"module", "error"},
)

错误将被成功警告,但这种方式的问题是 Prometheus 在查询时似乎聚合了每个唯一的标签,每个不同的错误消息在图表上变成一条线。

我还读到,如果我使用标签来保存我现在忘记了来源的可变数据,这可能是个问题。

那么警告特定错误的惯用方法是什么?

4

1 回答 1

1

阅读您的问题,我假设一旦发生错误,指标将是“1”,直到应用程序重新启动。或者,一旦用户清除了条件,状态可能会被重置。

如果这是稍后将被清除的状态,则将使用仪表。如果您想报告/警告发生了多少错误(哪种类型),计数器可能更合适。

Prometheus 是记录指标(和状态)信息并发出警报的好工具。

如果您想对事件(发生错误的事实)发出警报,则可能更适合使用日志管理解决方案。日志还可以提供更深入的信息。

只要没有“指标爆炸”,您就可以将错误添加为标签。如果错误类型的数量相当少,您可以将其作为标签。不应将诸如用户 ID(具有无限数量的值)之类的东西用作标签,因为它会导致指标爆炸。Prometheus 文档中也对此进行了说明。

添加标签以更具体地何时发送警报通常是一件好事。添加标签以在警报消息中显示它在技术上是可行的,但不是添加标签的最佳理由,因为它会为每个标签值创建额外的时间序列(恕我直言)。

于 2018-09-15T11:40:56.043 回答