0

我们正在向我们网络上的各种服务器和进程添加监控,目前,如果出现问题,各种监控将通过电子邮件发送给我的开发组 - X 分钟内网站上没有客户付款,支持进程的 Web 服务无响应,每日自动 FTP 到供应商失败等。虽然其中一些是信息性的,需要尽快解决(例如,明天或星期一很好),但有些是关键的,是实际客户中断的结果,所以他们需要尽快恢复。

问题是电子邮件太多,以至于人们对它们变得不敏感,甚至开始忽略关键的电子邮件。即使我们有一个每周都在变化的关键人物,我仍然发现关键警报会在那里放置几个小时,无人认领和无人响应。

其他人正在做什么来更好地解决这些类型的监控和警报情况?我应该有一个仪表板或摘要电子邮件来提供当天的所有内容吗?那么关键的事情呢 - 群组电子邮件仍然是最好的方式吗?我很想知道其他人正在做什么以确保事情得到快速解决,但要确保开发人员不会因无所作为而不知所措。

4

1 回答 1

0

在 RHQ ( http://rhq-project.org/ ) 我们有抑制事件 - 这意味着例如每 5 次警报才会发送一封电子邮件等。

也可以让警报禁用发送,然后有第二个所谓的恢复警报,(如果错误情况消失)如果出现下一个错误情况,则重新启用发送。

有关详细信息,请参阅http://www.rhq-project.org/display/JOPR2/Alerts

于 2011-02-19T15:10:44.253 回答