我正在测试Bosun(Stack Exchange 的开源监控和警报系统),我对如何监控“布尔”指标感到很困惑。
如果某些进程未运行,我想收到警报。
为了收集指标,我尝试了两种方法:
在scollector 的文档中,我看到可以配置某些进程,但我没有收到任何相关的指标。我是否需要任何特殊配置来启用这些进程检查?
我创建了一个自定义收集器来计算这些进程。
为了获得警报,我创建了以下规则:
alert test {
template = test
crit = avg(q("avg:myprocess.running{host=*}", "10m", "")) < 1
}
这是正确的做法还是有更好的方法?