问题标签 [prometheus-alertmanager]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
3852 浏览

docker - 查询通过 prometheus 节点导出器文本文件收集器公开的自定义指标失败

我是普罗米修斯/警报管理器的新手。

我创建了一个每分钟执行一次 shell 脚本的 cron 作业。--textfile.collector.directory此 shell 脚本在分配给参数(到节点导出器)的同一目录中生成“test.prom”文件(其中包含仪表度量)。我验证了(使用 curl http://localhost:9100/metrics)节点导出器正确地公开了该自定义指标。

当我尝试在普罗米修斯仪表板中针对该自定义指标运行查询时,它没有显示任何结果(它说没有找到数据)。

我无法弄清楚为什么对通过节点导出器文本文件收集器公开的指标的查询失败。任何线索我错过了什么?另外请让我知道如何检查并确保普罗米修斯刮掉了我的自定义指标“test_metric”?

我在普罗米修斯仪表板中的查询是test_metric != 0(在普罗米修斯仪表板中)没有给出任何结果。但我test_metric通过节点导出器文本文件公开。

任何帮助表示赞赏!

顺便说一句,节点导出器在 Kubernetes 环境中作为 docker 容器运行。

0 投票
1 回答
1538 浏览

prometheus - Prometheus AlertManager Slack 警报 URL 无法解析

在 Prometheus AlertManager 的 slack 通知中,默认标题包括一个可点击的 URL,该 URL 指向:  http://alertmanager-main-0:9093/#/alerts?receiver= '。我们在 Kubernetes 上使用 Kube-Prometheus。如何配置http://alertmanager-main-0:9093以便解决?我读过它可以通过配置 web.external-url 来解决。但是我还没有找到任何文档来帮助设置它的位置和设置它的位置。它需要任何 DNS 设置吗?

此外,在 AlertManager UI (NodeIP:NodePort/#/alerts...) 中,单击警报的“来源”会到达页面“<a href="http://prometheus-k8s-0:9090/graph" rel ="nofollow noreferrer">http://prometheus-k8s-0:9090/graph' 无法解决。这似乎是一个类似的问题。

0 投票
1 回答
485 浏览

prometheus - 允许 Prometheus alertmanager 接收器字段中的模板化字段

我正在尝试实施布赖恩巴西在这里提出的建议:

https://www.robustperception.io/using-labels-to-direct-email-notifications/

我正在做的是将 OpenShift 命名空间注释添加到我的指标中,然后使用 Alertmanager 配置获取该标签。但它似乎不起作用,并抱怨“to”字段为空。

以下是我尝试过的一些配置:

并且

它适用于静态定义的电子邮件。

0 投票
1 回答
4496 浏览

kubernetes - Kubernetes:Prometheus 计算 pod 实例数

Kubernetes-client Java api中,我可以使用以下方式获取给定应用程序的可用和总部署 pod 实例数:

在上面的示例中,我将availablePods与进行比较deployedPods,如果它们不匹配,我会生成警报。

如何使用 Prometheus 使用警报规则和/或 Alertmanager 配置复制此逻辑,它检查给定应用程序或作业的可用 pod 实例数量,如果它与指定数量的实例不匹配,它将触发警报?

指定的阈值可以是总阈值deployedPods,也可以来自另一个配置文件或模板。

0 投票
1 回答
176 浏览

prometheus - 当收到 Prometheus 的警报时,如何为机器做点什么

我使用 promethus,当我收到警报时,可能是机器 A 的服务已关闭。现在,我想为机器 A 做点什么,比如重启服务,有任何 LIB 可以做到吗?

0 投票
1 回答
1235 浏览

slack - 带有常见问题解答网址的 Prometheus Slack 警报

我有这样的普罗米修斯警报:

和一个用于 Slack 自定义警报的 Go 模板:

我希望它能够向我发送一个常见问题解答文档的链接以缓解问题,在描述之后显示。但是,松弛消息仍然不包含链接。我究竟做错了什么?

0 投票
0 回答
58 浏览

prometheus-alertmanager - 我正在为普罗米修斯模板化电子邮件通知。有人可以分享一些为 promethius 警报管理器设置的电子邮件模板吗

到目前为止,我正在使用默认模板。现在我想创建新模板。请通过分享如何从普罗米修斯读取值和一个基本模板来帮助我了解您在项目中使用的内容

0 投票
1 回答
752 浏览

prometheus - 从 Prometheus 目标到警报的标签传播

我通过服务发现和重新标记在Prometheusinstance_name目标上添加了一些附加标签,例如或instance_id在此处输入图像描述

我想将这些标签从特定目标传播到定义的警报。

我通读文档并尝试了不同的配置,例如以下配置,但无法弄清楚如何实现这种传播。

0 投票
1 回答
1871 浏览

prometheus - 带有 FIRING 警报的 AlertManager 行为

我正在使用文本文件收集器导出到 statistics.prom 文件,该文件每分钟由 update-statistics.sh 脚本更新。这是 .prom 文件的示例。

每次 update-statistics.sh 运行时,股票值可能会从“1”变为“0”,反之亦然。现在,假设 .prom 文件已更新为:

Alertmanager,发送以下警报:

在 update-statistics.sh 的下一次运行中, item_has_stock{id="aaa", store="y"} 的值从“0”变为“1”,如下所示。

现在,alertmanager 发送的警报如下所示:

FIRING 计数正确递减,但不应再显示“Item item.aaa at store y”行...这是 alertmanager 配置:

下一个 FIRING 警报,每 3 分钟触发一次 (group_interval + repeat_interval),看起来与上面的示例相同。仅在 15 分钟后(即 5 次警报后),“项目 item.aaa at store y”行才最终消失。另外,我希望这条线有一个 RESOLVED 警报......

PS:item-stock.rule 文件包含表达式“expr: item_has_stock == 0”,当值从“1”变为“0”时触发警报。

0 投票
3 回答
4010 浏览

kubernetes - Prometheus 如何知道 Pod 何时崩溃?

我了解使用 Prometheus,我们可以设置警报规则,如果 pod 崩溃,可以检测并发出警报。

我想了解 Prometheus 本身是如何知道 Pod 何时崩溃或陷入待处理状态的。

  • 当它试图从 pod 的 http 端点端口抓取指标时,它是否知道这一点?

或者

  • Prometheus 是否从 Kubernetes 获取 pod 状态信息?

我问这个的原因是因为我想设置 Prometheus 来监控我已经部署的现有 Pod。如果 pod 不断崩溃或卡在挂起状态,我想收到警报。而且我想知道 Prometheus 是否可以检测到这些警报,而无需对现有 pod 内的代码进行任何修改。