问题标签 [prometheus-alertmanager]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
4190 浏览

kubernetes - Prometheus 服务端点的上下文期限已超出

普罗米修斯版本 - 6.7.0

为了只抓取服务的特定端口,我使用了以下配置。在 Prometheus 中,目标服务端点始终处于状态

我的 Prometheus 作业配置——

尝试在 tls_config 下面添加,但这没有帮助 -

我还询问了 Prometheus 以验证scrape_duration_seconds大约 1 秒。

这是一个已知的问题?或者我是否需要按照任何特定步骤来获取详细的错误日志。

0 投票
1 回答
1927 浏览

kubernetes - Prometheus kube_pod_container_status_waiting_reason 未捕获 pod CrashLoopBackOff 原因

根据定义,kube_pod_container_status_waiting_reason应该捕获 Pod 处于 Waiting 状态的原因。

我的 kubernetes 集群中有几个 pod,它们位于 CrashLoopBackOff 中,但我没有看到kube_pod_container_status_waiting_reason. 它只捕获了两个原因 - ErrImagePull 和 ContainerCreating。

sum by (reason) (kube_pod_container_status_waiting_reason)在 prometheus 中运行会产生结果:

我正在运行quay.io/coreos/kube-state-metrics:v1.2.0kube-state-metrics 的图像。

我错过了什么?为什么 CrashLoopBackOff 原因没有出现在查询中?我想设置一个警报,查找处于等待状态的 pod 并说明原因。所以考虑合并kube_pod_container_status_waiting以找到处于等待状态的 pod 并kube_pod_container_status_waiting_reason找到确切的原因。

请协助。谢谢!

0 投票
1 回答
3463 浏览

prometheus - Prometheus:带有 AWS SNS 的 AlertManager

我正在为我的 Kubernates 设置设置 Prometheus Alertmanager。我可以直接通过邮件发送警报,但我想改用 AWS SNS。后来我发现 AWS-SNS 并没有得到 AlertManager 的官方支持,而是得到了社区的支持。

我找到了一个 github 项目,我们可以通过它为 alertmanager 启用 AWS SNS。

https://github.com/DataReply/alertmanager-sns-forwarder

但是当我尝试时,我得到了 CrashloopBackOff 状态。我使用与项目相同的部署 yaml。下面是我添加了我的环境特定细节的部分。

我检查了日志,但没有发现任何问题。

0 投票
1 回答
2221 浏览

scale - 监控并提醒 prometheus 指标数量异常

我们有许多 prometheus 服务器,每个服务器监控自己的区域(实际上每个区域 2 个),还有可以查询多个区域的 thanos 服务器,我们还使用 alertmanager 进行警报。

最近,我们遇到了一个问题,即很少有指标停止报告,我们只在需要指标时才发现它。我们正在尝试找出如何监控可扩展系统中报告的指标数量的变化,这些系统会根据需要增长和缩小。

我会很高兴你的建议。

0 投票
1 回答
70 浏览

prometheus - PODS 和集群的自定义警报规则

我正在尝试在 Prometheus 中设置一些警报。我能够为以下类别的节点创建警报(网络利用率、CPU 使用率、内存使用率)。我被豆荚困住了。

我应该为 POD/容器/集群警报规则使用哪些指标?

0 投票
1 回答
1128 浏览

kubernetes - 如何使用 helm chart 向 prometheus-operator 添加 smtp 设置?

我是 Kubernetes 新手,尤其是使用 helm。我安装了图表,它使用默认值可以正常工作。我想在图表的 values.yml 文件中添加 smtp 服务器设置。我对如何在安装图表时注入值感到困惑。这是我使用的图表https://github.com/helm/charts/tree/master/stable/prometheus-operator。在使用默认值安装 helm chart 后,我​​看到有一个名为 prometheus-operator-grafana 的部署,其值为 GF_SECURITY_ADMIN_USER 和 GF_SECURITY_ADMIN_PASSWORD 但我不确定这些值来自何处。帮助这些值如何工作以及如何注入它们将不胜感激。

0 投票
1 回答
1086 浏览

prometheus - 如何计算 Prometheus 警报中触发的警报并将其附加到警报标签?

例如,我有 2 台主机,当 CPU > 90% 时会触发警报。我可以打开 Prometheus UI 和警报管理器 UI,我看到 2 台主机发出警报。

我使用 webhook 作为接收器,我想获取每个主机的 CPU>90% 的警报计数,我该如何实现?

我考虑是否可以从某个地方获取计数值,然后我可以将其附加到警报标签中,最后我可以从 webhook 界面中的标签中获取值。

我提到了普罗米修斯触发的计数警报,它们使用更改功能,但如果值没有改变(假设 CPU 保持 90%),它无法覆盖。

0 投票
1 回答
1552 浏览

kubernetes - 使用 prometheus-alertmanager 通过 Grafana UI 发送警报电子邮件

我正在尝试使用 prometheus-alertmanager 通知通道通过 grafana UI 测试发送电子邮件警报。我在 alertmanager 的配置文件中添加了 stmp 详细信息。当我尝试测试时,它说电子邮件已发送,但没有真正发生。当我将相同的电子邮件配置添加到 grafana.ini 文件并在 UI 中添加电子邮件通知通道时,我能够发送测试通知。我正在使用以下 helm chart 来安装它 - > https://github.com/helm/charts/tree/master/stable/prometheus-operator 这是 alertmanager 配置文件。

这是 grafana 日志。

我在这里做错了什么?

0 投票
1 回答
1302 浏览

prometheus - 呼叫警报与 Prometheus Alertmanager 集成

我使用 Alertmanager 将 Prometheus 设置为监控系统。作为提醒,我需要调用选定号码或号码组的服务。

对我们来说,最好的解决方案是不要让第三方提供商为我们提供这个服务。

非常感谢。

0 投票
1 回答
1690 浏览

docker - 警报管理器无法启动,但 Prometheus 可以正常启动

我正在尝试使用 docker 启动普罗米修斯和警报管理器。

但是,在运行 docker-compose up 时,我遇到了这个错误:

码头工人-compose.yaml:

警报管理器.yaml

Prometheus 和 node-exporter 都运行良好,Alertmanager 的文件结构与 Prometheus 匹配,所以看不到我哪里出错了