我们正在向我们网络上的各种服务器和进程添加监控,目前,如果出现问题,各种监控将通过电子邮件发送给我的开发组 - X 分钟内网站上没有客户付款,支持进程的 Web 服务无响应,每日自动 FTP 到供应商失败等。虽然其中一些是信息性的,需要尽快解决(例如,明天或星期一很好),但有些是关键的,是实际客户中断的结果,所以他们需要尽快恢复。
问题是电子邮件太多,以至于人们对它们变得不敏感,甚至开始忽略关键的电子邮件。即使我们有一个每周都在变化的关键人物,我仍然发现关键警报会在那里放置几个小时,无人认领和无人响应。
其他人正在做什么来更好地解决这些类型的监控和警报情况?我应该有一个仪表板或摘要电子邮件来提供当天的所有内容吗?那么关键的事情呢 - 群组电子邮件仍然是最好的方式吗?我很想知道其他人正在做什么以确保事情得到快速解决,但要确保开发人员不会因无所作为而不知所措。