问题标签 [kube-state-metrics]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
kubernetes - 当 k8s 集群中的特定 pod 进入 Failed 状态时如何配置警报?
我们在spark-operator的帮助下在 k8s 集群上运行 spark 。我们使用prometheus进行监控。
我们想要配置一个警报,以便每当与 spark 作业相关的任何 pod 转换为Failed状态时,我们都应该收到警报。并且此警报规则应在过去 5 分钟内检查此类失败的 pod。
我们试图为此利用kube-state-metrics,但我们无法根据时间获取指标。在任何给定的时间点,度量kube_pod_status_phase{namespace="spark-operator",phase="Failed"}为我们提供了所有处于失败状态的 Pod 的列表。
非常欢迎对此提出任何建议或指导。
local - Helm 无法找到本地图表来更新依赖项
我正在使用 helm 3 在我的 vanilla k8s 集群上安装 Prometheus。Prometheus 带有 kube-state-metrics 图表依赖项。我的机器完全无法访问互联网,所以我的所有开发都是本地的。我已经安装了图表博物馆,里面有我的回购。但是,当我尝试更新依赖项时,无论是从本地路径到 chart.yaml 还是chart-museum url,都无法找到它。
我已经尝试了大多数解决方案,到目前为止没有任何效果。
prometheus - 在 prometheus-operator 中扩展 kube-state-metrics
在 Prometheus-operator 中,我想将kube-state-metrics
副本数增加到 2。如果我增加副本数,并且由于默认的服务发现角色是endpoints
,Prometheus 将抓取每个 pod,因此我会将所有指标抓取两次,这将导致多对 -很多问题,这是一种浪费。
我遇到的问题是一个节点出现故障,kube-state-metrics
其中包括其他节点。在安排新的 pod 之前,我不知道集群上发生了什么。有kube-state-metrics
多余的对我来说很重要。
如何将kubernetes_sd_configs
角色配置为kube-state-metrics
,service
以便将服务作为负载均衡器,而不是服务中的每个 pod?或者 - 我如何缩放kube-state-metrics
pod(不分片)?
当前配置:
我想要的是:
kubernetes - 如何加入 2 组 Prometheus 指标?
我的用例:我想在我的 1 个持久卷不处于“绑定”阶段时发出警报,并且仅当它属于预定义的一组命名空间时发出警报。
这让我第一次尝试加入 Prometheus 指标 - 所以,请多多包涵 :)
我选择使用以下方法来获取 pv 阶段:
渲染:
这很好用,除了它不包含命名空间。所以我设法用这个确定了 persistentvolumeclaim 命名空间:
渲染:
所以我的想法是将这些集合与以下字段中的匹配值结合起来:
(kube_persistentvolume_status_phase)persistentvolume
on
(kube_persistentvolumeclaim_info)volumename
但是,如果我理解正确,您只能在完全匹配的标签上加入两个指标集(文本及其值)。因此,我选择了“实例”和“工作”标签,因为它们在双方都很常见并且匹配。
渲染:
所以平心而论,查询确实可以很好地传达问题所在 - 所以我尝试使用“忽略”选项来解决这个问题 - 尝试只保留匹配的标签和值(实例和作业)并“排除/忽略”两边不匹配的。这也不起作用 - 导致解析错误。这反过来又促使我退后一步,重新评估我在做什么。
我只是有点担心我可能在这里吠错了树。
我的问题是:这有可能吗?如果可以,怎么办?或者是否有另一种更谨慎的方法来实现这一目标?
提前致谢!
elasticsearch - 不可用部署副本的值为,0.015,一个浮点数
我正在设置弹性搜索的指标。
为了从 Kubernetes 集群获取数据并将其发送到弹性搜索,正在使用 Kube-state-metrics 和 metrics beat。
如果部署有不可用的副本,我创建了一个警报以发送松弛通知。
警报由消息“Kubernetes.deployment.replicas.unavailable 大于阈值 0(当前值为 0.015748031496062992)”触发
我无法理解,不可用的 pod 怎么会是一个浮点数?
此外,所有 pod 都处于运行状态。
kube-state-metrics - 如何使用 kube-state-metrics 计算 pod 级别的 CPU 和内存利用率?
我是 kube-state-metrcs 的新手,我可以看到 CPU 和内存的 kube_pod_container_resource_requests 和 kube_pod_container_resource_limits 但不确定如何计算以下统计信息:
- %CPU 利用率
- %内存利用率
- %内存/升
- %CPU/L
问候, 维内特
kubernetes - 从 Prometheus 服务器进行查询时获取重复指标
我通过查询 Prometheus-server 来获取 kube-state-metrics 公开的指标,但问题是我得到的重复指标仅在工作领域有所不同。. 我正在做查询,例如:
唯一的区别是工作领域。查询 Prometheus-Server 时出现的指标
集群中运行的所有 pod:https ://imgur.com/PKIc3ug
任何帮助表示赞赏。
谢谢你
普罗米修斯.yml
kubernetes - 为 kube-controller-manager 和 kube-scheduler 启用端点
我是 kubernetes 世界的新手,目前我正忙于弄清楚如何为kube-controller-manager
&启用端点kube-scheduler
。将来,我将使用 helmkube-prometheus-stack
来抓取这些端点以获取指标。但是,目前设置这些端点的正确方法是什么?
kubernetes - 在 Prometheus 中找不到副本集 kube 状态指标
我正在尝试根据副本集指标设置一些警报,但 Prometheus在浏览表达式时无法找到副本集 kube 状态指标。那会有什么问题?在 Prometheus 仪表板上,我可以看到很多指标,它们在 kube 状态指标 repo 中,但是副本集。有任何想法吗?
Kube 状态指标版本:v1.9.7
更新:
例如,我可以在仪表板上看到大部分部署指标,但看不到副本集的指标。