0

我已经设置了一个中央警报管理器,并在所有需要监视的服务器上安装了普罗米修斯、节点导出器并配置了所需的规则以及警告/严重阈值,并指向警报管理器,它将在松弛时发送警告/严重警报。

现在,如果其中一台机器(具有 prometheus + 节点导出器 + 规则)关闭或不可用,则其上的 prometheus 将不会向警报管理器发送任何内容。

如何解决这个问题呢?我想确保如果任何 prometheus 节点(电源关闭/物理关闭/操作系统崩溃等)关闭,警报管理器应该在 slack 上发送主机关闭警报。

提前致谢。

病毒帕塔迪亚

4

1 回答 1

0

这种情况下的解决方案是运行多个复制的 Prometheus 实例,因此如果一个出现故障,另一个仍将继续评估和发送警报。

AlertManager 将负责对来自不同副本的相同警报进行重复数据删除。

于 2021-11-07T06:53:44.853 回答