我有一个 HPC 集群,我想用 Icinga2 监控它的运行状况。我为集群中的每个节点定义了许多检查,但我真正想要的是在超过一定百分比的节点生病时收到通知。
我注意到可以定义一个代表集群的虚拟主机并使用 Icinga 域特定语言来实现我感兴趣的东西(http://docs.icinga.org/icinga2/latest/doc/module/icinga2/章节/高级主题?highlight-search=up_count#access-object-attributes-at-runtime)。然而,这似乎是一个不雅且尴尬的解决方案。
是否可以在主机组上定义这种“聚合”或“元检查”?