我们在 EC2 中有大约 20 台服务器,大多数是动态生成的(扩展组)。
我们正在寻找一种解决方案来监控我们的应用程序的正常运行时间。
作为一个额外的好处,这个解决方案还可以扩展到实际监控所涉及的服务器,因此它很容易及时返回并查看在停机之前发生了什么或诸如此类。
我们正在寻找一个理想的托管解决方案,它应该很容易扩展(它需要以某种方式动态地处理添加/删除的服务器,而无需我们进行交互)。
总之,希望大家给点建议。
一点背景...
我们目前正在使用自定义的 Nagios 设置,现在服务器已经完全动态化,它被简化为基本上进行简单的 http 检查。我们已经使用 PagerDuty 来交付页面。确实可以,但是为了维护成本,我们很可能使用 http 检查@Pingdom 的服务器密度。
我已经简要地查看了 ServerDensity,它看起来确实很有希望,我特别喜欢他们的安装机制,只需将文件转储到您的 AMI 中,剩下的就交给它了。
在深入研究任何特定解决方案之前,我想知道有哪些选择。