2

嘿那里,

我正在尝试使用 Prometheus 配置 Kubernetes Cronjobs 监控和警报。我发现这个有用的指南

但是我总是得到一个不允许的多对多匹配:匹配标签必须在一侧是唯一的错误。

例如,这是触发此错误的 PromQL 查询:

max( kube_job_status_start_time * ON(job_name) GROUP_RIGHT() kube_job_labels{label_cronjob!=""} ) BY (job_name, label_cronjob)

查询本身会导致例如这些指标

kube_job_status_start_time kube_job_status_start_time{app="kube-state-metrics",chart="kube-state-metrics-0.12.1",heritage="Tiller",instance="REDACTED",job="kubernetes-service-endpoints",job_name="test-1546295400",kubernetes_name="kube-state-metrics",kubernetes_namespace="monitoring",kubernetes_node="REDACTED",namespace="test-develop",release="kube-state-metrics"}

kube_job_labels{label_cronjob!=""} kube_job_labels{app="kube-state-metrics",chart="kube-state-metrics-0.12.1",heritage="Tiller",instance="REDACTED",job="kubernetes-service-endpoints",job_name="test-1546295400",kubernetes_name="kube-state-metrics",kubernetes_namespace="monitoring",kubernetes_node="REDACTED",label_cronjob="test",label_environment="test-develop",namespace="test-develop",release="kube-state-metrics"}

我在这里缺少什么吗?我从指南中尝试的每个查询都会发生相同的多对多错误。即使我自己从头开始构建它也会导致同样的错误。希望你能在这里帮助我:)

4

4 回答 4

1

在我的情况下,当通过 helm(stable/prometheus-operator)安装时,我没有从 Prometheus 获得这个额外的标签。

您需要在 Prometheus 中进行配置。它调用:honor_labels: false

# If honor_labels is set to "false", label conflicts are resolved by renaming
# conflicting labels in the scraped data to "exported_<original-label>" (for
# example "exported_instance", "exported_job") and then attaching server-side
# labels.

所以你必须配置你的 prometheus.yaml 文件 - 配置选项 Honor_labels: false

# Setting honor_labels to "true" is useful for use cases such as federation and
# scraping the Pushgateway, where all labels specified in the target should be
# preserved

无论如何,如果我有这样的(我现在有exported_jobs),仍然无法进行正确的查询,但我想仍然是因为我的LHS。

Error executing query: found duplicate series for the match group 
{exported_job="kube-state-metrics"} on the left hand-side of the operation: 
[{__name__=
于 2020-04-15T07:52:46.810 回答
1

替换kube_job_status_start_timemax(kube_job_status_start_time) by (job_name)将汇总所有重复项并应解决错误。

结果查询将如下所示

       max(
            max(kube_job_status_start_time) by (job_name)
            * ON(job_name) GROUP_RIGHT()
            kube_job_labels{label_cronjob!=""}
          ) BY (job_name, label_cronjob)
于 2019-02-26T16:23:43.417 回答
0

我更深入地研究了这个问题,我猜它的根本原因是在这个一对多的向量匹配表达式中:

kube_job_status_start_time * ON(job_name) GROUP_RIGHT() kube_job_labels{label_cronjob!=""}

其中组修饰符“GROUP_RIGHT()”表明,左侧的每个向量元素 (kube_job_status_start_time) 可以根据公共标签 (job_name) 与右侧的多个元素 (kube_job_labels) 匹配。问题是我们在这里真正处理的是多对多匹配,因为右侧的每个向量元素也可以匹配左侧向量的多个元素:

在此处输入图像描述 在此处输入图像描述

我认为我们这里缺少的是 Prometheus 唯一标识从 K8S 导出的 Job 对象的方法。这篇博文的作者在他的设置中提到了这个功能:

...Prometheus 通过将原始指标的标签包含为exported_job 标签来解决标签名称的这种冲突...

在我的情况下,当通过 helm(stable/prometheus-operator)安装时,我没有从 Prometheus 获得这个额外的标签。

于 2019-01-09T16:29:19.910 回答
0

当我关注那篇文章时,我遇到了同样的问题,但对我来说,我实际上得到了重复的工作名称,但在不同的命名空间中。

前任。运行时kube_job_status_start_time

kube_job_status_start_time{instance="REDACTED",job="kube-state-metrics",job_name="job-abc-123",namespace="us"}
kube_job_status_start_time{instance="REDACTED",job="kube-state-metrics",job_name="job-abc-123",namespace="ca"}

所以我必须为命名空间添加一个过滤器,或者将命名空间添加到 ON/BY 子句中以使其唯一。

例如,对于其中一个子查询,我必须这样做:

   max(
      kube_job_status_start_time
      * ON(namespace, job_name) GROUP_RIGHT()
      kube_job_labels{label_cronjob!=""}
    ) BY (namespace, label_cronjob)

基本上必须将该原则应用于所有其他查询,才能为我工作。不确定这是否适用于您的情况。

于 2021-08-06T17:26:05.730 回答