4

我在 nagios 中创建了几个主机组,每个主机组由几台主机组成。主机承载受服务检查监控的应用程序,每个应用程序始终至少有 7 个或更多。因此我的问题是:当假设主机组“测试”中主机 A 上的应用程序出现故障时,我突然收到大约 7 个通知,描述主机组“测试”中主机 A 上的应用程序的 7 个控件中的每一个都处于临界状态。

我希望 nagios 配置的是发送一个通知,通知服务检查,例如,主机 A 上的消息计数处于临界状态,然后最多再发送一个通知主机组“测试”已关闭。这样我就不会收到 7 次通知,而且我知道我必须解决特定主机组中特定主机上的问题。这样更清楚要解决什么问题。

添加另一个示例:当主机 A 上的应用程序关闭并且我收到 10 条通知时,几秒钟后 http_checks 也会开始通知我,因为 apache 不会从已关闭的应用程序接收数据。所以我最终解决了一个问题并收到了大约 20 个或更多的通知。我将不胜感激的是最多 4 个通知。对主机 A 进行一对一的服务检查,对主机 A 所在的每个主机组进行一项检查,然后对 apache 所在的每个主机组进行相同的检查。或者,如果它们在同一个主机组中,则根本只有 2 个通知。

如果同时在另一个主机组中发生类似问题,我会再次知道有两个主机组有问题需要修复。然而,目前的情况是我收到大约 50 条通知,并且对从哪里开始以及真正的问题是什么感到困惑。

你们中有人面临类似的问题吗?我一直在寻找任何类似的主题来解决这个问题。我尝试使用依赖项,但没有找到将 nagios 配置为上述情况的方法。父子关系只能用于每个主机。升级根本不能解决这个问题。

也许我只是错过了有关此配置的文档中的一些信息。将不胜感激任何建议。

4

1 回答 1

2

Nagios 可以通过服务依赖检查来做到这一点。请参阅: http ://nagios.sourceforge.net/docs/nagioscore/3/en/dependencies.html

但是设置和保持管理是一个真正的痛苦。我发现最简单的解决方案是使用 NRPE 命令(在目标主机上定义)可以执行几乎无限数量的实际检查。所有这些都通过一个 Nagios 服务检查。我“捆绑”了单个应用程序的所有检查(进程启动/停止、各种日志报废、日志年龄等),以便每个单独的应用程序只有一个检查。检查结果告诉您哪个检查失败。

于 2013-03-06T06:46:23.823 回答