我正在使用 Prometheus 监控来监控几个节点(虚拟机)。我正在尝试编写警报规则,即如果过去 24 小时内所有 cpu 核心使用率的平均值小于阈值,则触发相同的警报。. (基本上,如果虚拟机在过去 24 小时内一直处于空闲状态,则发出警报)。
为此,我想创建一个记录规则来记录过去 24 小时的数据,然后我想创建一个警报来分析过去 24 小时的数据并在查询为真时发出警报)。
应该是什么规则 yaml 文件。
我正在使用 Prometheus 监控来监控几个节点(虚拟机)。我正在尝试编写警报规则,即如果过去 24 小时内所有 cpu 核心使用率的平均值小于阈值,则触发相同的警报。. (基本上,如果虚拟机在过去 24 小时内一直处于空闲状态,则发出警报)。
为此,我想创建一个记录规则来记录过去 24 小时的数据,然后我想创建一个警报来分析过去 24 小时的数据并在查询为真时发出警报)。
应该是什么规则 yaml 文件。
我建议您查看下一页:
https://awesome-prometheus-alerts.grep.to/
您对节点导出器(CPU、RAM、磁盘、网络、systemd...)有一些基本警报:
https://awesome-prometheus-alerts.grep.to/rules#host-and-hardware
享受!