问题标签 [prometheus-alertmanager]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
kubernetes - Prometheus 服务端点的上下文期限已超出
普罗米修斯版本 - 6.7.0
为了只抓取服务的特定端口,我使用了以下配置。在 Prometheus 中,目标服务端点始终处于状态
我的 Prometheus 作业配置——
尝试在 tls_config 下面添加,但这没有帮助 -
我还询问了 Prometheus 以验证scrape_duration_seconds
大约 1 秒。
这是一个已知的问题?或者我是否需要按照任何特定步骤来获取详细的错误日志。
kubernetes - Prometheus kube_pod_container_status_waiting_reason 未捕获 pod CrashLoopBackOff 原因
根据定义,kube_pod_container_status_waiting_reason
应该捕获 Pod 处于 Waiting 状态的原因。
我的 kubernetes 集群中有几个 pod,它们位于 CrashLoopBackOff 中,但我没有看到kube_pod_container_status_waiting_reason
. 它只捕获了两个原因 - ErrImagePull 和 ContainerCreating。
sum by (reason) (kube_pod_container_status_waiting_reason)
在 prometheus 中运行会产生结果:
我正在运行quay.io/coreos/kube-state-metrics:v1.2.0
kube-state-metrics 的图像。
我错过了什么?为什么 CrashLoopBackOff 原因没有出现在查询中?我想设置一个警报,查找处于等待状态的 pod 并说明原因。所以考虑合并kube_pod_container_status_waiting
以找到处于等待状态的 pod 并kube_pod_container_status_waiting_reason
找到确切的原因。
请协助。谢谢!
prometheus - Prometheus:带有 AWS SNS 的 AlertManager
我正在为我的 Kubernates 设置设置 Prometheus Alertmanager。我可以直接通过邮件发送警报,但我想改用 AWS SNS。后来我发现 AWS-SNS 并没有得到 AlertManager 的官方支持,而是得到了社区的支持。
我找到了一个 github 项目,我们可以通过它为 alertmanager 启用 AWS SNS。
https://github.com/DataReply/alertmanager-sns-forwarder
但是当我尝试时,我得到了 CrashloopBackOff 状态。我使用与项目相同的部署 yaml。下面是我添加了我的环境特定细节的部分。
我检查了日志,但没有发现任何问题。
scale - 监控并提醒 prometheus 指标数量异常
我们有许多 prometheus 服务器,每个服务器监控自己的区域(实际上每个区域 2 个),还有可以查询多个区域的 thanos 服务器,我们还使用 alertmanager 进行警报。
最近,我们遇到了一个问题,即很少有指标停止报告,我们只在需要指标时才发现它。我们正在尝试找出如何监控可扩展系统中报告的指标数量的变化,这些系统会根据需要增长和缩小。
我会很高兴你的建议。
prometheus - PODS 和集群的自定义警报规则
我正在尝试在 Prometheus 中设置一些警报。我能够为以下类别的节点创建警报(网络利用率、CPU 使用率、内存使用率)。我被豆荚困住了。
我应该为 POD/容器/集群警报规则使用哪些指标?
kubernetes - 如何使用 helm chart 向 prometheus-operator 添加 smtp 设置?
我是 Kubernetes 新手,尤其是使用 helm。我安装了图表,它使用默认值可以正常工作。我想在图表的 values.yml 文件中添加 smtp 服务器设置。我对如何在安装图表时注入值感到困惑。这是我使用的图表https://github.com/helm/charts/tree/master/stable/prometheus-operator。在使用默认值安装 helm chart 后,我看到有一个名为 prometheus-operator-grafana 的部署,其值为 GF_SECURITY_ADMIN_USER 和 GF_SECURITY_ADMIN_PASSWORD 但我不确定这些值来自何处。帮助这些值如何工作以及如何注入它们将不胜感激。
prometheus - 如何计算 Prometheus 警报中触发的警报并将其附加到警报标签?
例如,我有 2 台主机,当 CPU > 90% 时会触发警报。我可以打开 Prometheus UI 和警报管理器 UI,我看到 2 台主机发出警报。
我使用 webhook 作为接收器,我想获取每个主机的 CPU>90% 的警报计数,我该如何实现?
我考虑是否可以从某个地方获取计数值,然后我可以将其附加到警报标签中,最后我可以从 webhook 界面中的标签中获取值。
我提到了普罗米修斯触发的计数警报,它们使用更改功能,但如果值没有改变(假设 CPU 保持 90%),它无法覆盖。
kubernetes - 使用 prometheus-alertmanager 通过 Grafana UI 发送警报电子邮件
我正在尝试使用 prometheus-alertmanager 通知通道通过 grafana UI 测试发送电子邮件警报。我在 alertmanager 的配置文件中添加了 stmp 详细信息。当我尝试测试时,它说电子邮件已发送,但没有真正发生。当我将相同的电子邮件配置添加到 grafana.ini 文件并在 UI 中添加电子邮件通知通道时,我能够发送测试通知。我正在使用以下 helm chart 来安装它 - > https://github.com/helm/charts/tree/master/stable/prometheus-operator 这是 alertmanager 配置文件。
这是 grafana 日志。
我在这里做错了什么?
prometheus - 呼叫警报与 Prometheus Alertmanager 集成
我使用 Alertmanager 将 Prometheus 设置为监控系统。作为提醒,我需要调用选定号码或号码组的服务。
对我们来说,最好的解决方案是不要让第三方提供商为我们提供这个服务。
非常感谢。
docker - 警报管理器无法启动,但 Prometheus 可以正常启动
我正在尝试使用 docker 启动普罗米修斯和警报管理器。
但是,在运行 docker-compose up 时,我遇到了这个错误:
码头工人-compose.yaml:
警报管理器.yaml
Prometheus 和 node-exporter 都运行良好,Alertmanager 的文件结构与 Prometheus 匹配,所以看不到我哪里出错了