2

我使用 kubernetes api 和 kube 状态指标使用 prometheus 远程监控 eks 集群。在 Kubernetes api 中,我们有一个指标container_cpu_usage_seconds_total,它给出了 pod 的 cpu 使用率。kube-state-metrics 中是否有类似的指标可以提供 cpu 使用率。实际上,我正在尝试获取与 kubernetes api 和 kube-state-metrics 完全不同的集群 cpu 使用情况,以下是计算。

kube-state-metrics:

sum(kube_pod_container_resource_requests_cpu_cores) / sum(kube_node_status_allocatable_cpu_cores) * 100- 这给了 101%

而 kube-state-metrics 给出12%的对我来说看起来很准确。

kubernetes-api:

sum (rate (container_cpu_usage_seconds_total{id="/",kubernetes_io_hostname=~"^$Node$", job=~"$job$"}[5m])) / sum (machine_cpu_cores{kubernetes_io_hostname=~"^$Node$", job=~"$job$"}) * 100

与 kubernetes-api 相比,我认为 kube-state-metric 中没有任何指标可以提供 cpu 使用率

提前致谢。

4

1 回答 1

2

不, kube_state_metric中没有(一个)针对每个容器的 cpu 使用率的特定指标。

您得到的值: sum(kube_pod_container_resource_requests_cpu_cores) / sum(kube_node_status_allocatable_cpu_cores) * 100 = 101 可能是错误的,因为kube_node_status_allocatable_cpu_coreskube_pod_container_resource_requests_cpu_cores等指标被标记为DEPRECATED

同时,请注意有kube_pod_container_resource_limits_cpu_cores 之类的指标。您的容器可能设置了资源限制,这就是您的结果可能超过100 %的原因。如果您为每个容器设置了限制,请检查资源限制是否低于该资源请求,然后您的计算应如下所示 [sum(kube_pod_container_resource_requests_cpu_cores) - sum(kube_pod_container_resource_limits_cpu_cores)]/ sum(kube_node_status_allocatable_cpu_cores) * 100

查看kube_state_metrics中容器和节点 的每个资源指标: node_metricspod_container_metrics

于 2019-06-24T08:26:35.933 回答