Nagios 很好,定期运行系统测试(Selenium)也很好。
编辑:Hyperic和Groundwork看起来也很有趣。
可能有一个测试套件系统可以为您保持对所有内容的压力测试。我不记得我头顶上的名字了,也许有人可以在下面提到一个。
我喜欢做的其他事情:
基础设施的最佳座右铭始终是修复、检测、修复。抓住它,找到它的根源,如果可以的话,治愈/预防它。
由于一个系统存在于多个层次,我们应该在多个层次上进行测试:
编辑:通过电子邮件将所有错误或警告直接发布给您的案例经理。这样您就可以在一个地方跟踪事件。
1)连接:从服务器和外部监控您的互联网连接。在某处记录这个
2)服务器:监控所有需要确保它们正在运行而不是固定服务器的进程。使用 HP 服务器或具有硬件故障通知功能的等效设备,它可以从 bios 级别执行。如果是,请通知并记录。
3)软件:确定始终需要运行的关键软件。设置性能级别(如果有),然后对其进行监控。Nagios 应该能够帮助解决这个问题。在 Windows 上可能会更多。发生异常时,您应该能够从中运行脚本以自动重新启动进程。我的梦想系统允许我通过 SMS 与服务器交互,如果服务器将其视为我必须允许的异常,或者除非我通过短信取消,否则它将自动发生。一天..
4)远程电源:确保远程电源重置功能在您手中。如果您曾经使用 Windows 进行任何操作,您可能需要安排每周重新启动。
5)业务逻辑测试:定期运行脚本测试系统的工作流程。Selenium 可能可以实现其中的一些,但我也喜欢记录结果以说明此时运行并且这些文件有错误。如果可能,请让系统通过脚本自行监控。
6)备份:做一个你可以设置和忘记的备份。如果您可以将东西放入虚拟机中,那将是理想的选择,因为您可以在任何地方扩展、移动或部署基础架构的任何部分。我曾经有过这样的例子,我将一个死机的服务器移到我的笔记本电脑上,让它在我修复问题的同时在 vmware 中运行。