问题标签 [prometheus-alertmanager]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

496 问题

0 投票

0 回答

4190 浏览

kubernetes - Prometheus 服务端点的上下文期限已超出

普罗米修斯版本 - 6.7.0

为了只抓取服务的特定端口，我使用了以下配置。在 Prometheus 中，目标服务端点始终处于状态

我的 Prometheus 作业配置——

尝试在 tls_config 下面添加，但这没有帮助 -

我还询问了 Prometheus 以验证scrape_duration_seconds大约 1 秒。

这是一个已知的问题？或者我是否需要按照任何特定步骤来获取详细的错误日志。

2018-12-13T18:01:37.237

0 投票

1 回答

1927 浏览

kubernetes - Prometheus kube_pod_container_status_waiting_reason 未捕获 pod CrashLoopBackOff 原因

根据定义，kube_pod_container_status_waiting_reason应该捕获 Pod 处于 Waiting 状态的原因。

我的 kubernetes 集群中有几个 pod，它们位于 CrashLoopBackOff 中，但我没有看到kube_pod_container_status_waiting_reason. 它只捕获了两个原因 - ErrImagePull 和 ContainerCreating。

sum by (reason) (kube_pod_container_status_waiting_reason)在 prometheus 中运行会产生结果：

我正在运行quay.io/coreos/kube-state-metrics:v1.2.0kube-state-metrics 的图像。

我错过了什么？为什么 CrashLoopBackOff 原因没有出现在查询中？我想设置一个警报，查找处于等待状态的 pod 并说明原因。所以考虑合并kube_pod_container_status_waiting以找到处于等待状态的 pod 并kube_pod_container_status_waiting_reason找到确切的原因。

请协助。谢谢！

kubernetes prometheus prometheus-alertmanager prometheus-operator kube-state-metrics

2018-12-17T23:44:10.347

0 投票

1 回答

3463 浏览

prometheus - Prometheus：带有 AWS SNS 的 AlertManager

我正在为我的 Kubernates 设置设置 Prometheus Alertmanager。我可以直接通过邮件发送警报，但我想改用 AWS SNS。后来我发现 AWS-SNS 并没有得到 AlertManager 的官方支持，而是得到了社区的支持。

我找到了一个 github 项目，我们可以通过它为 alertmanager 启用 AWS SNS。

https://github.com/DataReply/alertmanager-sns-forwarder

但是当我尝试时，我得到了 CrashloopBackOff 状态。我使用与项目相同的部署 yaml。下面是我添加了我的环境特定细节的部分。

我检查了日志，但没有发现任何问题。

prometheus prometheus-alertmanager

2019-01-07T19:54:43.533

0 投票

1 回答

2221 浏览

scale - 监控并提醒 prometheus 指标数量异常

我们有许多 prometheus 服务器，每个服务器监控自己的区域（实际上每个区域 2 个），还有可以查询多个区域的 thanos 服务器，我们还使用 alertmanager 进行警报。

最近，我们遇到了一个问题，即很少有指标停止报告，我们只在需要指标时才发现它。我们正在尝试找出如何监控可扩展系统中报告的指标数量的变化，这些系统会根据需要增长和缩小。

我会很高兴你的建议。

scale monitoring prometheus anomaly-detection prometheus-alertmanager

2019-01-13T11:26:24.960

0 投票

1 回答

70 浏览

prometheus - PODS 和集群的自定义警报规则

我正在尝试在 Prometheus 中设置一些警报。我能够为以下类别的节点创建警报（网络利用率、CPU 使用率、内存使用率）。我被豆荚困住了。

我应该为 POD/容器/集群警报规则使用哪些指标？

prometheus prometheus-alertmanager

2019-01-21T20:07:13.540

0 投票

1 回答

1128 浏览

kubernetes - 如何使用 helm chart 向 prometheus-operator 添加 smtp 设置？

我是 Kubernetes 新手，尤其是使用 helm。我安装了图表，它使用默认值可以正常工作。我想在图表的 values.yml 文件中添加 smtp 服务器设置。我对如何在安装图表时注入值感到困惑。这是我使用的图表https://github.com/helm/charts/tree/master/stable/prometheus-operator。在使用默认值安装 helm chart 后，我看到有一个名为 prometheus-operator-grafana 的部署，其值为 GF_SECURITY_ADMIN_USER 和 GF_SECURITY_ADMIN_PASSWORD 但我不确定这些值来自何处。帮助这些值如何工作以及如何注入它们将不胜感激。

kubernetes grafana prometheus kubernetes-helm prometheus-alertmanager

2019-01-25T22:59:05.843

0 投票

1 回答

1086 浏览

prometheus - 如何计算 Prometheus 警报中触发的警报并将其附加到警报标签？

例如，我有 2 台主机，当 CPU > 90% 时会触发警报。我可以打开 Prometheus UI 和警报管理器 UI，我看到 2 台主机发出警报。

我使用 webhook 作为接收器，我想获取每个主机的 CPU>90% 的警报计数，我该如何实现？

我考虑是否可以从某个地方获取计数值，然后我可以将其附加到警报标签中，最后我可以从 webhook 界面中的标签中获取值。

我提到了普罗米修斯触发的计数警报，它们使用更改功能，但如果值没有改变（假设 CPU 保持 90%），它无法覆盖。

prometheus prometheus-alertmanager

2019-01-28T10:24:32.723

0 投票

1 回答

1552 浏览

kubernetes - 使用 prometheus-alertmanager 通过 Grafana UI 发送警报电子邮件

我正在尝试使用 prometheus-alertmanager 通知通道通过 grafana UI 测试发送电子邮件警报。我在 alertmanager 的配置文件中添加了 stmp 详细信息。当我尝试测试时，它说电子邮件已发送，但没有真正发生。当我将相同的电子邮件配置添加到 grafana.ini 文件并在 UI 中添加电子邮件通知通道时，我能够发送测试通知。我正在使用以下 helm chart 来安装它 - > https://github.com/helm/charts/tree/master/stable/prometheus-operator 这是 alertmanager 配置文件。

这是 grafana 日志。

我在这里做错了什么？

kubernetes grafana prometheus kubernetes-helm prometheus-alertmanager

2019-01-28T17:26:12.827

0 投票

1 回答

1302 浏览

prometheus - 呼叫警报与 Prometheus Alertmanager 集成

我使用 Alertmanager 将 Prometheus 设置为监控系统。作为提醒，我需要调用选定号码或号码组的服务。

对我们来说，最好的解决方案是不要让第三方提供商为我们提供这个服务。

非常感谢。

prometheus prometheus-alertmanager

2019-01-31T09:55:06.473

0 投票

1 回答

1690 浏览

docker - 警报管理器无法启动，但 Prometheus 可以正常启动

我正在尝试使用 docker 启动普罗米修斯和警报管理器。

但是，在运行 docker-compose up 时，我遇到了这个错误：

码头工人-compose.yaml：

警报管理器.yaml

Prometheus 和 node-exporter 都运行良好，Alertmanager 的文件结构与 Prometheus 匹配，所以看不到我哪里出错了

docker prometheus-alertmanager

2019-01-31T17:05:31.603

1 2 3 4 5 6 7 8 9 10

问题标签 [prometheus-alertmanager]

Reference