我的团队负责一个高流量网站,该网站非常活跃,拥有大约 350 万个唯一网址。我们每周部署大约 1 个应用程序,我们有一个每周更新大约 100 个更新的 CMS,我们的内部数据源也每周发布大约 1 个,并且我们使用大约 10 个其他公共 Web 服务。我们的团队始终负责确保一切正常运行。
我们使用 pingdom 来确保其中一些已启动,但它仅限于一些检查,并且它不能处理我们需要的尽可能多的 url。
我们也使用 Nagios,但它有点像黑盒子,我们的开发团队还没有完全采用。我们的大多数开发人员都专注于 Windows,一想到所有配置就会畏缩。
我们需要的大部分只是监控几个 url,当事情发生故障或变化时可以通知我的东西。