问题标签 [prometheus-operator]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2301 浏览

kubernetes - 安装prometheus监控Kubernetes集群报错

我正在安装 prometheus 来监控 K8S,但我遇到了这个错误。你能帮助我吗?非常感谢!!

0 投票
5 回答
6194 浏览

amazon-web-services - 将 Prometheus 运算符与 k8s 的 DB 卷一起使用

我们正在尝试使用 Grafana 和 Prometheus Operator 监控 K8S。大多数指标都按预期工作,我能够看到具有正确值的仪表板,我们的系统包含 10 个节点,总共 500 个 pod。现在,当我重新启动 Prometheus 时,所有数据都被删除了。我希望它保存两周。

我的问题是,如何定义 Prometheus 卷以将数据保留两周或 100GB 数据库。

我发现了以下内容(我们使用Prometheus运算符):

https://github.com/coreos/prometheus-operator/blob/master/Documentation/user-guides/storage.md

这是 Prometheus Operator 的配置

这是普罗米修斯的配置

https://github.com/coreos/prometheus-operator/blob/master/Documentation/user-guides/storage.md

我们有文件系统(nfs),上面的存储配置不起作用,我的问题是:

  1. 我在这里想念的是如何在下面的部分中配置volume, server, ?我应该在哪里找到这个?我怎样才能参考它?我应该以某种方式创建它,还是只提供路径?pathnfs/path/to/prom/db

我们在系统中配置了 NFS。

  1. 如何将其与 Prometheus 结合?

pvc由于我对and没有深入的了解pv,因此我创建了以下内容(不确定这些值,我的服务器是什么以及我应该提供什么路径)...

我应该放什么以及如何让我的 Prometheus(即我在问题中提供的配置)使用它?

nfs除了我可以用于我的用例之外,是否还有其他持久性卷?请指教如何。

0 投票
1 回答
113 浏览

amazon-web-services - 在新的集群 crd 问题中部署 peromethues

我试图在全新的 k8s 集群中使用操作员创建普罗米修斯我使用以下文件,

  1. 第一步我正在创建一个命名空间监控
  2. 应用这个文件,它工作正常

现在我想应用这个文件(CRD)

我得到错误:

error: unable to recognize "1500-prometheus-crd.yaml": no matches for kind "Prometheus" in version "monitoring.coreos.com/v1"

我找到了这个https://github.com/coreos/prometheus-operator/issues/1866,但我尝试按照提到的那样做,即等待几秒钟并再次部署,但它没有帮助。任何想法 ?

还尝试删除 ns 并使用配置再次创建它,我遇到了同样的问题。请指教

0 投票
2 回答
736 浏览

kubernetes - 为什么prometheus operator无法启动

我正在尝试在全新的 k8s 集群中使用操作员创建普罗米修斯我使用以下文件,

  1. 我正在创建一个命名空间监控
  2. 应用这个文件,它工作正常

现在我想应用这个文件(CRD)

在我创建那些 CRD 之前

https://github.com/coreos/prometheus-operator/tree/master/example/prometheus-operator-crd

Pod 无法启动的问题(0/2),见下图。可能是什么问题呢?请指教

在此处输入图像描述

更新

当我参加舞会运营商的活动时,我看到以下错误creating: pods "prometheus-operator-6944778645-" is forbidden: no PriorityClass with name operator-critical was found replicaset-controller,知道吗?

0 投票
1 回答
9070 浏览

apache-spark - 如何获得 2 个不同的普罗米修斯指标之间的差异?

考虑指标示例:

如果我在普罗米修斯图上单独执行这些指标 - 一切正常。但是当尝试类似的东西时:

我得到了No datapoints error

  1. 可能是因为application_executor_recordsWritten收到了最后 1 小时而kafka_server_brokertopicmetrics_messagesin_total收到了 6 个多小时。
  2. 可能会因为这些指标具有不同的“收集设置”而发生,请考虑普罗米修斯控制台输出:

    application_executor_recordsWritten

    {app_name="app-name",exported_instance="application_111111111111111111",exported_job="application_111111111111111111",instance="XX.XXX.X.XX",job="job_name",number="1",role="executor" }

    kafka_server_brokertopicmetrics_messagesin_total

    {instance="XX.XXX.X.XX",job="job_name",topic="my_topic"}

Prometheus 使用关键字之类的东西ignore(???),但我不知道它是如何工作的以及如何将其应用于这些指标。

任何想法如何执行指标差异?什么是正确的语法?

0 投票
1 回答
855 浏览

prometheus - 使用 prometheus 监控 Spring Boot 执行器指标

我有具有多个服务的 kubernetes 集群,每个服务都有一个执行器和一个运行状况检查(准备就绪 + 活跃度探测器)我试图为其中一个服务创建一个 Prometheus 作业来抓取响应(200 响应表明服务很好),但是据我了解,Prometheus 将数据存储为“时间序列”键值,所以我不确定我做得对。这是执行器的响应:

这是我的工作:

在此处输入图像描述

有没有办法抓取包含“状态”的 json 响应?而“INVALID”不是一个有效的起始令牌 是不是刮坏了?

0 投票
1 回答
257 浏览

kubernetes - 尝试将 prometheus-operator 和服务监视器收集的自定义指标推送到 AWS CloudWatch

我正在运行服务监视器以从 pod 收集指标。然后在 Prometheus 运算符的帮助下,我使用 serviceMonitorSelector 在 Prometheus 中捕获这些指标。我看到 Prometheus 中的这些指标正在被收集。

现在,我正在尝试将这些自定义指标从 Prometheus 导出到 AWS Cloudwatch。有谁知道该怎么做?最终结果是在 Zenoss on Cloudwatch 的帮助下设置和警报系统。

0 投票
1 回答
753 浏览

kubernetes - 如何在普罗米修斯操作员中获得有关配置重新加载错误的通知或警报?

我使用 prometheus 运算符在 kubernetes 上部署监控堆栈。我想知道是否有办法知道配置重新加载器部署的配置是否失败。这对于使用配置重新加载器容器重新加载其配置的 prometheus 和警报管理器资源非常有用。当配置失败时。我们在容器中有一个日志,但是我们可以基于失败的配置重新加载获得通知或警报吗?

0 投票
1 回答
939 浏览

prometheus - Json exporter需要传入target和json作为参数,在prometheus配置中

我有一个使用 prometheus 运算符的 prometheus 设置。我已经配置了一个黑盒导出器,用于使用 prometheus 监控一些 url。类似地,我实现了一个 json 导出器,用于从 json url 路径获取指标。我的配置如下:

0 投票
1 回答
6480 浏览

prometheus - 在 alertmanager 中添加自定义 webhook 配置

我有一个自定义 webhook URL,我需要在 alertmanager 中配置相同的 URL 以获取警报通知。但是我的配置没有按预期工作。在警报管理器中出现以下错误,

level=error ts=2019-04-22T09:31:46.038681545Z caller=dispatch.go:279 component=dispatcher msg="Notify for alerts failed" num_alerts=1 err="cancelling notify retry for \"webhook\" due to unrecoverable error: unexpected status code 404 from http://example.com:9898/TrigerToSlack"

我的 Alertmanager 配置如下,