问题标签 [alertmanager]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
225 浏览

prometheus - Prometheus / Alertmanager:从松弛通知中删除链接

当 AlertManager 发布到 Slack 时,是否可以删除我们获得的链接?

目前它将访问 http://localhost:9093/。

0 投票
1 回答
189 浏览

prometheus - Prometheus 抛出“错误的响应状态 401 未经授权”-即使在指定正确的配置“basic_auth_users”之后

我已经配置了用户和产品(“basic_auth_users”)并传递了文档中提到的这些参数:--web.config.file

能够独立访问 Prometheus UI 和 Alert Manager UI(使用提供的凭据),但我在 Prometheus 日志中看到以下错误,并且因此不会发出警报。

理想情况下 alertmanager=http://pronode1:9093/api/v1/alerts ,需要用户和密码才能获得结果,但为什么它不能从--web.config.file我提供的文件中提取。

我是否缺少任何其他配置?

请帮我。

使用的版本:

0 投票
0 回答
265 浏览

prometheus-alertmanager - alertmanager 随机获取错误消息意外状态代码 422

我已经从 community-helm chart(14.6.0) 部署了 prometheus,它正在运行 alertmanager,它显示不时出现的错误(模板问题),错误消息显示没有任何额外的用处。问题是我已经通过 amtool 重新测试了配置并且在配置中没有收到错误

监控正在工作并获得警报只是想了解如何翻译此错误.. 启用调试模式没有提供更多信息可能有什么问题。

警报管理器配置:

0 投票
0 回答
42 浏览

prometheus - 导出 Prometheus Dashboard 以每天自动发送一封电子邮件

我正在寻找一种方法来导出 Prometheus Dashboard 以每天自动发送一封电子邮件。如果出现任何问题,我可以在 prometheus 中创建警报。同时,我想每天早上收到一封电子邮件,说一切都已启动并正在运行。

普罗米修斯仪表板

0 投票
1 回答
176 浏览

prometheus - 使用 prometheus 和 alertmanager 主机关闭警报

我已经设置了一个中央警报管理器,并在所有需要监视的服务器上安装了普罗米修斯、节点导出器并配置了所需的规则以及警告/严重阈值,并指向警报管理器,它将在松弛时发送警告/严重警报。

现在,如果其中一台机器(具有 prometheus + 节点导出器 + 规则)关闭或不可用,则其上的 prometheus 将不会向警报管理器发送任何内容。

如何解决这个问题呢?我想确保如果任何 prometheus 节点(电源关闭/物理关闭/操作系统崩溃等)关闭,警报管理器应该在 slack 上发送主机关闭警报。

提前致谢。

病毒帕塔迪亚

0 投票
1 回答
84 浏览

prometheus - Prometheus 选择性地抑制警报

我需要创建一个警报系统,它必须在满足特定条件(例如 Tomcat 宕机)时发出通知。部署在不同位置(具有不同时区)的多个远程服务器托管 Tomcat 服务并由 Prometheus 监控。我只需要在当地时间 8:05 到 22:45 收到警报,所以我按照以下步骤进行:

  1. 定义了一个自定义规则“check_system_time_in_interval”,如果服务器本地时间在 [8:05,22:45],则返回 1,否则返回 0
  2. 使用规则 1)在“prometheus.rule.yml”中定义一个警报Inhibit alert during NO working hours :
  1. 在“alertmanager.yml”文件中定义了一个新的inhibit_rule,当监控的服务器时间不在该时间间隔内时,它会禁止警报TOMCAT down (当TOMCAT服务停止服务时触发警报)

TOMCAT down 使用自定义规则“tomcat_up”检查 Tomcat 是否已启动。现在它似乎工作得很好但是使用这种方法我会因为时区而遇到问题:如果被监控服务器的本地时间在 [8:05,22:45] 内,我需要得到通知,即使 Prometheus 服务器位于到不同的时区。

一种简单的解决方案是仅当 check_system_time_in_interval 时间序列的“instance”标签等于 TOMCAT down 的“instance”标签时才禁止警报(例如,如果 check_system_time_in_interval{instance="10.41.0.118"}=0 和 tomcat_up{instance= “10.41.0.118}=1”然后发出警报)但我不知道如何修改“inhibit_rule”才能做到这一点。

0 投票
1 回答
263 浏览

prometheus-alertmanager - Alertmanager 仅通过默认接收器

如标题所述,我对 prometheus-operator 的 alertmanager 有疑问。我正在尝试使用路由过滤一些警报,但似乎没有考虑在内。

当我使用默认接收器时,一切似乎都工作正常,但是如果我尝试使用不执行任何操作的默认接收器进行过滤,然后使用路由,它不会进入路由并且我不会收到任何错误。

我正在使用的秘密:

使用此配置,它会将所有内容都放在默认路由中,而 netheir 会进入路由,我什至没有收到错误消息。有人对如何使这项工作有想法吗?

0 投票
2 回答
433 浏览

prometheus - 在 Prometheus 警报规则中使用条件运算符设置严重性

我想在 Prometheus alert.rules 定义中使用条件运算符来设置特定的严重性。例如,如果环境是生产环境,我想将严重性设置为关键,否则设置另一个值。

就像是:

0 投票
0 回答
205 浏览

alertmanager - 消息正在丢弃,因为在 AlertManager 中排队的消息太多

我有 AlertManager 的单实例集群,我在 AlertManager 容器中看到警告level=warn ts=2021-11-03T08:50:44.528Z caller=delegate.go:272 component=cluster msg="dropping messages because too many are queued" current=4125 limit=4096

警报管理器版本信息:

警报管理器指标

  • 我们如何在 AlertManager 中看到那些排队的消息?

  • 当消息由于排队太多而被丢弃时,我们是否会丢失警报?

  • 即使有逻辑可以定期(即 15 分钟)修剪消息,为什么还要排队?

  • 当 AlertManager 定期修剪消息时,我们会丢失警报吗?

我是警报新手。您能回答以上问题吗?

0 投票
1 回答
63 浏览

expression - Prometheus Alertmanager Expression Problem/Questions(s) 关于列表

我正在尝试创建一个 prometheus-alert-expression 来检查挂载点是否已挂载,并在挂载点丢失时发送警报。想法是这样的:

这有点工作。但是有没有办法将列表/向量传递给挂载点和/或实例。

使用这个表达式,我必须为每个实例和每个挂载点编写一个警报规则。

我有尝试像这样的正则表达式的想法

..但这显然行不通。

有人知道如何实现吗?

问候

沃尔克