service - Nagios：主机宕机->之后所有服务似乎都超时了

Question

我对 Nagios 有一个奇怪的问题。重新启动后一切运行正常。然后几个小时后，主机显示出来，一分钟后再次出现（请参阅下面的历史记录）。之后，所有服务都因超时而失败。

这不会同时发生在所有服务器上。哪个服务器失败似乎相当随机。

历史记录：

[2013-06-26 19:19:07] SERVICE ALERT: HyperV 1;Check CPU HyperV 1;CRITICAL;SOFT;1;CHECK_NRPE: Socket timeout after 120 seconds.
[2013-06-26 19:17:27] HOST ALERT: HyperV 1;UP;SOFT;2;PING OK - Packet loss = 0%, RTA = 3.01 ms
[2013-06-26 19:16:17] HOST ALERT: HyperV 1;DOWN;SOFT;1;PING CRITICAL - Packet loss = 100%

到目前为止我所尝试的。

- 增加超时

-更改了主机检查，以便在失败前更频繁地检查（5次而不是1次）

- 从命令行执行脚本 -> 也失败（也许是 Ubuntu 问题？）

-检查双方的日志是否有错误（没有发现）

重新启动后一切正常。

系统信息：

-Nagios 在 Ubuntu 13.04 上运行

- 一些客户端使用 NSClient++ 运行不同的 Windows

-ESX 版本从 4.0 到 5.1

插件：

-check_nrpe

来自Nagios Exchange的 -check_vmfs

我…… 不清楚不要犹豫问。

谢谢和最好的，

皮尔

score 0 · Accepted Answer

您似乎有网络问题，而不是 Nagios 问题。可能是电缆损坏、网卡故障、路由问题、交换机抖动、arp 表溢出，可能是任何数量的事情。

由于这会影响所有主机/服务，并且会间歇性地自行清除，因此我建议您首先开始寻找本地连接上的问题。如果它只影响某些项目而不影响其他项目，则查找哪些主机具有共同的网络组件并在那里检查。

service - Nagios：主机宕机->之后所有服务似乎都超时了

1 回答 1

Related

Reference