问题标签 [prometheus-alertmanager]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
41 浏览

prometheus - Stacklight Prometheus 功能不起作用

我正在尝试让 Prometheus Alerting UI 报告两个指标

从上面我得到了很好的“未找到数据点”,但是我需要尝试找出如何找到虚拟机消耗的总进程内存与计算主机上总内存的比率。

基本上是虚拟机使用的内容/总计算主机内存。

我已经验证了以上都是整数,有趣的是两者都产生整数......而如果我使用固定值

它可以工作,但是我想动态地考虑这一点,而不使用固定值

有什么想法吗?

0 投票
1 回答
441 浏览

grafana - 如何使用 prometheus 的 AlertManager 设置/触发电子邮件警报

如何使用 Prometheus 的 Alert-Manager 设置/触发电子邮件警报

Prometheus的Alert-Manager的邮件告警需要设置哪些参数和

设置/配置的位置和文件

0 投票
1 回答
610 浏览

prometheus - Prometheus Docker 无法以`Template: (dynamic): parse: template: :10: undefined variable "$labels"` 开始

我正在尝试在 Nomad 上运行 Prometheus。一切看起来都很好,但是当我添加带有模板的警报规则时,annotations它失败了。

这是一个简单的警报规则:

容器失败Template: (dynamic): parse: template: :10: undefined variable "$labels"

如果我删除annotations部分,它会毫无问题地开始。

0 投票
1 回答
924 浏览

prometheus - Prometheus 中配置文件的替代方案?

我想在一个小型组织中实施监控系统。我有使用 Zabbix 的经验,但我正在考虑 Prometheus,因为它背后似乎有一个大社区,而且它几乎是今天的标准(如果我错了,请纠正我)。

但是,我想知道如何方便地在配置文件中处理所有抓取和警报规则的配置,而不是在像 Zabbix 这样的 Web UI 中。我的意思是,10 到 20 个警报可能没问题,但是如何通过 20 个不同的服务和 1000 个不同的警报来管理它呢?也许有一个我刚刚错过的解决方案?在 Zabbix 中,管理所有内容非常方便,因为它是 UI,而且所有内容都进入组(主机组、模板等)

我很感激你的见解。

0 投票
1 回答
1559 浏览

kubernetes - CommonAnnotations 不适用于 AlertManager

我正在尝试通过 Prometheus 设置 Alertmanager。我已经编写了警报规则和 alertmanager.yaml 文件。我可以通过 alertmanager 向 slack 发送警报。

问题

我无法美化我的警报。我想用我的警报发送描述、警报名称、摘要。

我尝试使用 CommonAnnotations 来发送我的警报的描述、名称和摘要。但不幸的是,它只适用于“DeadMansSwitch”。对于所有其他警报,我无法在 slack 频道上看到任何内容。

预期结果:- 松弛通道上的警报摘要。

实际结果:- 只能在 slack 上看到 DeadMansSwitch(警报)的摘要。对于其他警报,它只是显示

0 投票
1 回答
753 浏览

kubernetes - 如何在普罗米修斯操作员中获得有关配置重新加载错误的通知或警报?

我使用 prometheus 运算符在 kubernetes 上部署监控堆栈。我想知道是否有办法知道配置重新加载器部署的配置是否失败。这对于使用配置重新加载器容器重新加载其配置的 prometheus 和警报管理器资源非常有用。当配置失败时。我们在容器中有一个日志,但是我们可以基于失败的配置重新加载获得通知或警报吗?

0 投票
0 回答
1638 浏览

email - 普罗米修斯电子邮件通知

Prometheus Operator正在运行Kubernetes它,我可以监控我的资源和集群。但是我没有收到带有警报触发的电子邮件通知。我应该怎么做才能收到电子邮件?

我把我的AlertManager.yaml配置保密

kubectl edit secret alertmanager-kube-prometheus -n monitoring

我的AlertManager.yaml样子是这样的:

我在仪表板中的警报列表Prometheus

https://i.stack.imgur.com/zWA9L.jpg

0 投票
1 回答
2263 浏览

amazon-web-services - 通知警报:超出上下文截止日期(可能的代理问题)

我正在尝试将 EC2 AWS 中 ubuntu 上的 Alermanager 服务器连接到 Slack,但我收到此错误:

我的 alertmanager.yum 看起来像:

我可以看到警报触发我的测试警报:

我用 systemd 启动了 prometheus:

我尝试使用 2Environment变量设置代理,但结果相同

服务器使用代理与 Slack 通信,我可以通过以下方式对其进行测试:

那行得通,而

以上所有命令均来自 alertmanger 服务器。

我认为这是代理问题是否正确?我该如何设置?

提前致谢

0 投票
1 回答
4194 浏览

kubernetes - 警报管理器短信通知

我在集群Prometheus上运行了一个监控。Kubernetes我想在我的警报触发时收到短信通知。我应该如何设置我的号码以接收短信Alertmanager

0 投票
1 回答
2058 浏览

prometheus - 10 分钟后停用普罗米修斯警报

我有一个 kubernetes 集群,我正在使用 Prometheus 进行监控和警报。Prometheus 警报管理器会不断重复警报,直到它们处于活动状态。我想将我的警报管理器配置为仅向 slack 发送一次警报并仅在警报状态发生变化时重复警报

我尝试仅在特定时间生成警报,如下所示

(kube_pod_container_status_restarts_total > 3) * ((time() % 86400 / 3600 > bool 3) == bool (time() % 86400 / 3600 < bool 4))

但这对我不起作用

Prometheus 服务器配置如下:

Alertmanager 配置如下:

我正在尝试实现以下目标:

如果最初有 10 个 pod 重新启动超过 3 次,那么它应该只向 slack 抛出一次警报

如果在一两天后重新启动的 Pod 数量增加到 20 个 Pod,那么警报管理器应该只发出一次警报以松弛该 Pod

关于我可以尝试或改变的任何建议都会有很大帮助

提前致谢!