0

我对 Nagios 有一个奇怪的问题。重新启动后一切运行正常。然后几个小时后,主机显示出来,一分钟后再次出现(请参阅下面的历史记录)。之后,所有服务都因超时而失败。

这不会同时发生在所有服务器上。哪个服务器失败似乎相当随机。

历史记录:

[2013-06-26 19:19:07] SERVICE ALERT: HyperV 1;Check CPU HyperV 1;CRITICAL;SOFT;1;CHECK_NRPE: Socket timeout after 120 seconds.
[2013-06-26 19:17:27] HOST ALERT: HyperV 1;UP;SOFT;2;PING OK - Packet loss = 0%, RTA = 3.01 ms
[2013-06-26 19:16:17] HOST ALERT: HyperV 1;DOWN;SOFT;1;PING CRITICAL - Packet loss = 100%

到目前为止我所尝试的。

- 增加超时

-更改了主机检查,以便在失败前更频繁地检查(5次而不是1次)

- 从命令行执行脚本 -> 也失败(也许是 Ubuntu 问题?)

-检查双方的日志是否有错误(没有发现)

重新启动后一切正常。

系统信息:

-Nagios 在 Ubuntu 13.04 上运行

- 一些客户端使用 NSClient++ 运行不同的 Windows

-ESX 版本从 4.0 到 5.1

插件:

-check_nrpe

来自Nagios Exchange的 -check_vmfs

我…… 不清楚不要犹豫问。

谢谢和最好的,

皮尔

4

1 回答 1

0

您似乎有网络问题,而不是 Nagios 问题。可能是电缆损坏、网卡故障、路由问题、交换机抖动、arp 表溢出,可能是任何数量的事情。

由于这会影响所有主机/服务,并且会间歇性地自行清除,因此我建议您首先开始寻找本地连接上的问题。如果它只影响某些项目而不影响其他项目,则查找哪些主机具有共同的网络组件并在那里检查。

于 2013-07-02T04:32:09.410 回答