问题标签 [promql]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
kubernetes - 如何让prometheus监控kubernetes服务?
我想监控我的 Kubernetes 服务对象,以确保它们后面有 > 0 个处于“运行”状态的 Pod。
但是,要做到这一点,我必须首先按服务对 Pod 进行分组,然后再按状态对它们进行进一步分组。
我也想以编程方式执行此操作(例如,对于命名空间中的每个服务......)
Sensu kubernetes 插件中已经有一些代码可以执行此操作:https ://github.com/sensu-plugins/sensu-plugins-kubernetes/blob/master/bin/check-kube-service-available.rb但我没有没有看到任何显示如何使用 Prometheus 进行操作的东西。
有没有人用 Prometheus 设置 Kubernetes 服务级别的健康检查?如果是这样,您是如何按服务分组然后按 Pod 状态分组的?
prometheus - 如何在 Prometheus 查询中对标签进行分组?
如果我有一个带有以下标签的指标:
是否可以进行查询甚至label_replace
将“杂项”组组合在一起?
(我意识到指标基数需要改进,我已经更新了应用程序来修复它。但是它给我留下了这个问题,如果我想稍后通过查询来修复指标)
prometheus - 处理计算中缺失的指标
我用一个公式来计算大约。MySQL实例的最大内存消耗(简化并用PromQL编写)读取:
不幸的是,该mysql_global_variables_innodb_additional_mem_pool_size
指标并不总是存在于每个实例中,如果将其包含在计算中,则会导致“无数据”。
有可以用来解决这个问题的功能absent(v instant-vector)
,但我不确定如何。
我希望将不存在的指标替换为常数(0
在这种情况下)。是否可以?
您能否向我提供一些关于如何处理 PromQL 计算中缺失指标的提示?
alert - PromQL:查询警报是否被静音
我已经成功地使当前已关闭的节点的警报静音(并且在我们有时间物理替换它之前将等待一段时间)。
虽然我认为沉默会阻止警报重新出现在松弛通道中,但我也想在我们在普罗米修斯顶部运行的 grafana 仪表板上摆脱它。这是 grafana 中各个图块的查询。
我的问题是是否有一个关键字可以替换“触发”,“不静音”不起作用(“静音”也不行;})只会向我显示警报未被静音的机器。
prometheus - 获取一段时间内的总请求数
我需要在 Grafana 中显示一个面板,其中右上角选择的时间段内的请求数。
为此我需要在这里解决 2 个问题,我会在这里问 prometheus 问题,在另一个链接中问 Grafana 问题。
如果我有一个 Counter http_requests_total
,我如何构建一个查询来获取一个整数,其中包含一段时间内的请求总数(例如:24hs)?
grafana - 如何在查询中使用选定的时间段?
我正在将 Grafana 与 Prometheus 一起使用,我想构建一个查询,该查询取决于在屏幕右上角选择的选定时间段。
在查询字段中是否有任何变量(或类似的东西)可以使用?
换句话说,如果我选择 24hs,我想在查询中使用该数据。
prometheus - prometheus-promql 基于标签值的查询
我是普罗米修斯的新手。有没有办法根据标签值查询时间序列,即它是否大于或小于标签值?
例如:假设一个计量指标是 {mountpoint='/test',usage='90%'} 值为 1
无论仪表值如何,如何编写 promql 查询以获取标签“使用”> 80% 的结果?
prometheus - 缺少指标
我们有一个度量假设
所有这些都是 x_metrics 的数据。但是现在出现了一个场景,比如 x_metrics{host="1.1.2.1",somelabel="d"}
这个特定的主机停止进入普罗米修斯。我需要为所有主机写一个通用条件的警报,如果停止,那么普罗米修斯应该发出警报。我会在那个场景中做什么?
请问,有人可以在这个用例中指导我吗?
prometheus - Prometheus 查询每小时发出的警报总数
嗨,我需要查找过去 24 小时内每小时发出的警报总和。Prometheus 查询是否可以直接在控制台中提供此信息。我可以
sum(alerts)
通过选择时间范围来使用和查看图表。
但我需要在控制台中每小时发送的警报数量,以便我可以将该数据复制到 Excel。
该sum_over_time
查询在控制台中提供过去 1d 的总数据计数:
同样,没有选项可以根据每小时汇总总数。
cpu-usage - 使用 Prometheus 监控 CPU 利用率
我正在尝试监视安装和运行 Prometheus 的机器的 cpu 利用率。我有一个指标process_cpu_seconds_total
。我可以找到这个指标的愤怒或比率。但我不太确定如何得出 CPU 利用率的百分比值。无论如何我可以使用这个process_cpu_seconds_total
指标来找到运行 Prometheus 的机器的 CPU 利用率吗?