我对 Nagios 有一个奇怪的问题。重新启动后一切运行正常。然后几个小时后,主机显示出来,一分钟后再次出现(请参阅下面的历史记录)。之后,所有服务都因超时而失败。
这不会同时发生在所有服务器上。哪个服务器失败似乎相当随机。
历史记录:
[2013-06-26 19:19:07] SERVICE ALERT: HyperV 1;Check CPU HyperV 1;CRITICAL;SOFT;1;CHECK_NRPE: Socket timeout after 120 seconds.
[2013-06-26 19:17:27] HOST ALERT: HyperV 1;UP;SOFT;2;PING OK - Packet loss = 0%, RTA = 3.01 ms
[2013-06-26 19:16:17] HOST ALERT: HyperV 1;DOWN;SOFT;1;PING CRITICAL - Packet loss = 100%
到目前为止我所尝试的。
- 增加超时
-更改了主机检查,以便在失败前更频繁地检查(5次而不是1次)
- 从命令行执行脚本 -> 也失败(也许是 Ubuntu 问题?)
-检查双方的日志是否有错误(没有发现)
重新启动后一切正常。
系统信息:
-Nagios 在 Ubuntu 13.04 上运行
- 一些客户端使用 NSClient++ 运行不同的 Windows
-ESX 版本从 4.0 到 5.1
插件:
-check_nrpe
来自Nagios Exchange的 -check_vmfs
我…… 不清楚不要犹豫问。
谢谢和最好的,
皮尔