我正在使用文本文件收集器导出到 statistics.prom 文件,该文件每分钟由 update-statistics.sh 脚本更新。这是 .prom 文件的示例。
item_has_stock{id="item.aaa", store="x"} 1
item_has_stock{id="item.aaa", store="y"} 1
item_has_stock{id="item.bbb", store="z"} 1
item_has_stock{id="item.ccc", store="k"} 1
每次 update-statistics.sh 运行时,股票值可能会从“1”变为“0”,反之亦然。现在,假设 .prom 文件已更新为:
item_has_stock{id="item.aaa", store="x"} 1
item_has_stock{id="item.aaa", store="y"} 0
item_has_stock{id="item.bbb", store="z"} 0
item_has_stock{id="item.ccc", store="k"} 0
Alertmanager,发送以下警报:
[FIRING:3] Item Stock
Item item.aaa at store y
Item item.bbb at store z
Item item.ccc at store k
在 update-statistics.sh 的下一次运行中, item_has_stock{id="aaa", store="y"} 的值从“0”变为“1”,如下所示。
item_has_stock{id="item.aaa", store="x"} 1
item_has_stock{id="item.aaa", store="y"} 1
item_has_stock{id="item.bbb", store="z"} 0
item_has_stock{id="item.ccc", store="k"} 0
现在,alertmanager 发送的警报如下所示:
[FIRING:2] Item Stock
Item item.aaa at store y
Item item.bbb at store z
Item item.ccc at store k
FIRING 计数正确递减,但不应再显示“Item item.aaa at store y”行...这是 alertmanager 配置:
route:
receiver: 'default'
routes:
- receiver: 'item-stock'
group_by: ['item_has_stock']
group_wait: 45s
group_interval: 1m
repeat_interval: 2m
match_re:
id: .*item.*
receivers:
- name: 'default'
slack_configs:
- send_resolved: true
api_url: '...'
channel: '#channel'
username: 'alertmanager'
- name: 'item-stock'
slack_configs:
- send_resolved: true
api_url: '...'
channel: '#channel'
username: 'alertmanager'
title: '[{{ .Status | toUpper }}{{ if eq .Status "firing" }}:{{ .Alerts.Firing | len }}{{ end }}] Item Stock'
text: "{{ range .Alerts }}\nItem {{ .Labels.id }} at store {{ .Labels.store }}{{ end }}"
下一个 FIRING 警报,每 3 分钟触发一次 (group_interval + repeat_interval),看起来与上面的示例相同。仅在 15 分钟后(即 5 次警报后),“项目 item.aaa at store y”行才最终消失。另外,我希望这条线有一个 RESOLVED 警报......
PS:item-stock.rule 文件包含表达式“expr: item_has_stock == 0”,当值从“1”变为“0”时触发警报。