问题标签 [prometheus-alertmanager]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
configuration - 如何通过配置设置 Prometheus Alertmanager 外部 URL
我正在使用一个香草 Docker 容器来启动一个 Alertmanager。据我所知,在这种情况下我无法通过参数提供外部 URL,所以我必须找到另一种方法。
是否可以通过配置文件或环境变量设置 URL?
docker - 当 docker 容器 pod 处于 Error 或 CarshLoopBackOff kubernetes 时发出警报
我在 AWS 上设置了我的 kubernetes 集群,我正在尝试使用 cAdvisor + Prometheus + Alert manager 监控多个 Pod。如果容器/pod 出现故障或卡在 Error 或 CarshLoopBackOff 状态或 stcuk 处于运行之外的任何其他状态,我想要做的是启动电子邮件警报(带有服务/容器名称)。
prometheus - Prometheus 的嵌套查询
我想查询 Prometheus,好像我的集群指标超过了某个阈值,然后我想检查我的哪些主机超过了特定阈值,并最终根据该主机触发一个脚本。
prometheus - prometheus 值中的环境变量
我想根据 prometheus 值文件中的环境 qa/prod 设置环境特定值
kubernetes - Prometheus 警报管理器未发送警报
我正在与 Prometheus 在 Kubernetes 上合作,并尝试将警报发送到 slack。问题是警报正在触发,但没有发送到松弛状态。我正在使用 Prometheus 1.18.1 和 Kubernetes 1.9。
现在我只是试图发送内置的“DeadMansSwitch”警报,我可以在 UI 中看到它正在触发。我的 alertmanager.yaml(在 prometheus-operator/contrib/kube-prometheus/assets/alertmanager 下)如下所示:
AlertManager UI 上的配置显示如下:
问题:
- AlertManager UI 上的配置与我在 alertmanager.yaml 文件中的配置不同。这个配置(在 UI 中)来自哪里?
- 在 alertmanager.yaml 中设置接收器是否不足以发送警报?我在这里错过了什么吗?
- 我是否在错误的 yaml 文件中进行了更改?
prometheus-alertmanager - Prometheus Alertmanager 通过 UI 使警报静音不会阻止警报首次出现以触发
Alertmanager UI 上的“静音”功能可以用于在新警报发送到接收器之前使它们静音吗?这在环境中执行升级时会很有用。
我的警报包含标签“env”(用于识别给定环境),我可以通过 UI 添加静音规则。问题是它只会在“env”/环境中第一次出现警报后静音。同时,已向 Alertmanager 接收器发送警报。
我还尝试将 alertmanager.conf 中的值
group_interval
从 5m 更改为 10s,group_wait
从 30s 更改为 60s。
或者,当“env”标签匹配时,我可以更新接收器……但我更喜欢使用“静音”功能(在 UI 或 API 中 - 尚未尝试使用 API 进行静音)。
任何输入将不胜感激。
(使用 Alertmanager 0.14.0 版)
prometheus - 如何使用 web_hook 从 promrtheus alertmanager 向服务器执行 POST Rest API
我正在使用警报管理器的以下配置来发送普罗米修斯的 API 发布调用,但不知何故我无法得到它,下面是我的配置
我的烧瓶服务器在 localhost 的 9000 端口上运行,它接受 POST API 调用
global:
http_config: 'http://localhost:9000'
route:
group_by: ['alertname']
group_wait: 30s
group_interval: 10s
repeat_interval: 10s
receiver: test_api
routes:
- receiver: test_api
group_wait: 10s
match:
infra_grp: pse
receivers:
- name: "test_api"
webhook_configs:
send_resolved: true
url: '/test/test_host'
docker - kube_state 指标返回什么?
我正在尝试为普罗米修斯中的警报编写一些规则。我写的规则似乎在语法上是正确的,我知道它满足,但我无法将其视为警报。例如-
这是正确的写法吗?kube_pod_container_status_running 返回什么?布尔或某个数字?
prometheus - Prometheus:使用正则表达式减少重复规则
在 Prometheus 记录规则中,我想记录我每个 Jenkins 作业中的作业失败率。
这个表达式将允许我这样做。MyJenkinsJob_1 的失败率。
由于逻辑(方程式)对所有工作都是通用的!,我可以通过更改变量值jobname来使用相同的表达式。
我们可以用一些 reg 表达式来做到这一点,这样我就不必反复硬编码(创建新规则)Jenkins 作业名称(例如:MyJenkinsJob_1、MyJenkinsJob_2、MyJenkinsJob_3、......)。Prometheus 中是否有任何可用的功能!