1

我已经构建了一个 Nagios 远程主机监控设置(非 NRPE),它功能强大且有用,除了:

不知何故,我发现 Nagios 主机登录到各种远程主机,只是在一秒钟后(如果不是在同一秒内)注销,每 3 分钟左右一次;它多久执行一次似乎不是确定性的。这些登录与我定义的任何检查周期不一致。

从我的远程主机阵列的 auth.log 的任意成员:

Feb 25 10:51:11 MACHINE sshd[3590]: Accepted publickey for nagios from 10.1.2.110 port 54069 ssh2
Feb 25 10:51:11 MACHINE sshd[3590]: pam_unix(sshd:session): session opened for user nagios by (uid=0)
Feb 25 10:51:11 MACHINE sshd[3599]: Received disconnect from 10.1.2.110: 11: disconnected by user
Feb 25 10:51:11 MACHINE sshd[3590]: pam_unix(sshd:session): session closed for user nagios

然后,三分钟后:

Feb 25 10:54:10 MACHINE sshd[3632]: Accepted publickey for nagios from 10.1.2.110 port 54176 ssh2
Feb 25 10:54:10 MACHINE sshd[3632]: pam_unix(sshd:session): session opened for user nagios by (uid=0)
Feb 25 10:54:10 MACHINE sshd[3642]: Received disconnect from 10.1.2.110: 11: disconnected by user
Feb 25 10:54:10 MACHINE sshd[3632]: pam_unix(sshd:session): session closed for user nagios

我想不通。我的服务遵循通用服务模板,我已对其进行了修改,以延长检查间隔和最大检查尝试次数。为什么 Nagios 在这个串行登录狂潮中?

4

2 回答 2

0

你检查过你的主机定义吗?你用什么'检查主机'?如果它“通过”NRPE 检查(而不是类似于“本地”检查 ping)执行检查,那么它也可能正在登录。

您还可以检查 Nagios 日志文件以查看实际执行了哪些检查。我通常执行 'tail -f nagios.log | grep [IP_ADDRESS_of_target_host]' 将结果缩小到特定机器。

如果那里没有显示任何内容,在最后的努力中,您可以启用调试并检查 Nagios 调试文件 - Nagios 所做的一切都会进入该文件。由于调试文件往往滚动得非常快(至少在我们的安装中 - > 6.8K 检查),您可能必须使用 'grep' 来找到您要查找的内容。

于 2013-03-05T16:20:15.897 回答
0

如果检查返回 CRITICAL/WARNING 状态,则可能是您retry_interval的设置为 3 分钟,我认为这是默认设置。仔细检查您的服务模板nagios/etc/objects/templates

于 2014-08-13T14:10:01.880 回答