0

我正在使用进程导出器来监视进程,然后在进程使用过多 CPU 时发出警报。

这是我在普罗米修斯仪表板中的监控 CPU 代码

sum(rate(namedprocess_namegroup_cpu_seconds_total{groupname=~"$processes",instance="$host", mode=~"system|user"}[20s])) by (groupname, instance)

我尝试用这个写警报(首先测试 10% CPU)

- name: process
  rules:
  - alert: CPUProcess
    expr: sum(rate(namedprocess_namegroup_cpu_seconds_total[20s])) by (groupname, instance) > 10
    for: 1m
    labels:
      severity: critical
    annotations:
      summary: "(instance {{ $labels.instance }}) use too much CPU"
      description: "Process (instance {{ $labels.groupname }}) use high CPU"

但是好像不行(另一个警报可以正常工作),你能给我一个建议吗,谢谢。

4

1 回答 1

1

固定为namedprocess_namegroup_cpu_seconds_total{groupname=~".+", mode=~"system"} > 10

于 2019-11-12T06:55:25.433 回答