我已经使用 prometheus、AWS EC2 自动发现和节点导出器建立了一个监控系统。使用以下公式获取 CPU 利用率:
100 - (avg by (instance) (irate(node_cpu_seconds_total{instance="instancexyz" ,mode="idle"}[5m])) * 100)
但是,在一个特定的 ASG 中,我得到的 CPU 百分比是较大的负值。我打开了 instance:9100/metrics 链接,发现空闲值是大指数值。这是我得到的一个值:
node_cpu_seconds_total{cpu="0",mode="idle"} 4.25766215e+06
除少数实例外,这些指标在我的所有实例上都运行良好。知道发生了什么吗?