在使用分布在网络上的多台主机的 nagios 时,主机状态显示出可识别的滞后,并且需要很长时间才能反映在 nagios 服务器 cgi 上。因此,对于分布式主机环境,加速状态处理的最佳 nrpe/nagios 配置是什么。就我而言,我使用 nagios core 4.1 nrpe 1.5 服务器/客户端:Amazon ec2
1 回答
GUI 通常每分钟仅更新一次(自动),尽管单击刷新可以为您提供“几乎”最新信息。我说几乎是因为 Nagios 核心内部有一个独特的处理循环,导致它永远不会是实时的。NRPE 将以您的网络连接速度运行 - 除了发送和接收少量数据外,它几乎没有其他作用。这里唯一的延迟是实际执行检查和发回响应所需的时间——当然,这有很多因素需要提及。尝试查看的输出
[nagioshome]/bin/nagiostats
有几个条目告诉你:
'Latency' - the time between when the check was scheduled to start, and the actual start time.
'Execution Time' - the amount of time checks are actually taking to run.
这些条目将有三个数字,它们是;最小最大平均
高延迟数字(在我的书中意味着 Avg 大于 1 秒)通常意味着您的 Nagios 服务器过度工作。您可以采取一些措施来改善延迟时间,这些都在“nagios.cfg”文件中进行了概述。这种延迟与网络速度或 NRPE 的速度无关——它主要是硬件速度。如果您已经在使用 nagios.cfg 中指定的最佳值,那么是时候寻找一些更快的硬件了。
高执行时间(对我来说平均大于 5 秒)几乎可以归咎于除了 Nagios 系统之外的所有事情。 这可能是由于网络故障(不正确的数据包路由)、网络过载、检查故障和/或设计不当、目标系统速度慢……等等。您对 Nagios 和/或 NRPE 配置所做的任何事情都不会帮助降低这些值。好吧,您可以禁用 NRPE 的加密以缩短传输时间;但是,如果您首先启用了加密,那么您不太可能希望将其禁用。