centos - Nagios 处于 OK 或 UP 状态时的重试间隔

Question

我使用 NRPE 插件将一台 Linux 主机配置为 Nagios 监控服务器。为此，我遵循以下 URL

http://www.tecmint.com/how-to-add-linux-host-to-nagios-monitoring-server/

我必须检查 Linux Host 的一些服务。为了监控 linux 主机和该主机的服务，我使用的是 nagios log( /usr/local/nagios/var/nagios.log)

第一次在我的 nagios 日志中显示如下状态

SERVICE ALERT: test.testing.local;Service Tomcat;OK;SOFT;6;TOMCAT OK

当我的服务状态更改为非正常状态时，它会在日志中显示我

SERVICE ALERT: test.testing.local;Service Tomcat;CRITICAL;SOFT;4;TOMCAT CRITICAL

但是我希望如果我的服务状态没有更改为非正常状态，而不是在 1 分钟后再次显示在日志中

SERVICE ALERT: test.testing.local;Service Tomcat;OK;SOFT;6;TOMCAT OK

而目前这还没有发生。

我的 services.cfg 文件内容如下

define service {
    host_name                       test.testing.local
    service_description             Service Tomcat
    check_command                   check_nrpe!check_service_tomcat
    max_check_attempts              10
    check_interval                  1
    retry_interval                  1
    active_checks_enabled           1
    check_period                    24x7
    register                        1
}

我正在使用 Nagios 4.2.2 和 CentOS 7。

score 1 · Accepted Answer

我认为您所追求的是来自 Nagios 4 Core docs here

check_interval：该指令用于定义主机定期检查之间的“时间单位”数量。除非您已将 interval_length 指令从默认值 60 更改，否则此数字将表示分钟。有关此值的更多信息，请参阅检查计划文档。

retry_interval：此指令用于定义在安排重新检查主机之前要等待的“时间单位”的数量。当主机更改为非 UP 状态时，它们会在重试间隔重新调度。一旦主机重试了 max_check_attempts 次而其状态没有改变，它将恢复为按 check_interval 值定义的“正常”速率进行调度。除非您已将 interval_length 指令从默认值 60 更改，否则此数字将表示分钟。有关此值的更多信息，请参阅检查计划文档。

如果您将 check_interval 设置为 1 分钟（这非常频繁，您可以看到默认值为 60），您将每 1 分钟重试10 次（配置中的 max_check_attempts）而不改变状态，那么它会给您一个OK/UP 状态。

centos - Nagios 处于 OK 或 UP 状态时的重试间隔

1 回答 1

Related

Reference