4

我昨天在 Grafana 中配置了警报,并从两台服务器获得警报。总是相同的两台服务器获得高 IO、高 CPU 或其他任何东西。

问题是,他们没有这么高的数据。事实上,他们几乎处于闲置状态。所有服务器都通过 Ansible 进行完全相同的配置。所以 Telegraf 配置在所有服务器上都是相同的。

此外,如果我将 Grafana 中的统计信息过滤到相应的服务器,则图表中显示的数据是正确的,如下面的屏幕截图所示。规则测试仍然会导致误报。

服务器 Grafana 图表的屏幕截图,数据正确,“测试规则”结果错误

我检查了vmstat哪个也显示正确的信息:

procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----
 r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
 1  0  47100 151152  20948 454556    2    2    16    38    2    1  2  1 96  0  1
 0  0  47100 151136  20948 454592    0    0     0     0  125  135  0  1 96  0  2
 0  0  47100 150408  20956 454584    0    0     0    84  222  282  1  3 93  0  4
 0  0  47100 150424  20956 454592    0    0     0     0  151  225  0  0 97  0  2
 0  0  47100 150424  20956 454592    0    0     0     0  115  140  0  0 96  0  4
 0  0  47100 150424  20956 454592    0    0     0     0  109  125  0  0 97  0  2
 0  0  47100 150424  20956 454592    0    0     0     0  121  131  0  0 98  0  2
 0  0  47100 150412  20972 454576    0    0     0    92  139  208  0  1 96  0  3
 0  0  47100 150456  20972 454592    0    0     0     0   65  117  0  0 99  0  1
 0  0  47100 150876  20972 454592    0    0     0    16  692  705  2  4 88  0  5

如果telegraf.log出了什么问题。

2017-07-07T09:22:04Z I! Starting Telegraf (version 1.3.3)
2017-07-07T09:22:04Z I! Loaded outputs: influxdb
2017-07-07T09:22:04Z I! Loaded inputs: inputs.diskio inputs.processes inputs.swap inputs.system inputs.redis inputs.disk inputs.kernel inputs.mem inputs.net inputs.nginx inputs.postgresql inputs.cpu
2017-07-07T09:22:04Z I! Tags enabled: environment=production host=om-1-prod rails_env=production role=telegraf
2017-07-07T09:22:04Z I! Agent Config: Interval:10s, Quiet:false, Hostname:"om-1-prod", Flush Interval:10s

有什么想法吗?

4

1 回答 1

0

我一直手动监控服务器,并在短时间内发现了这些高峰。

所以这里的问题是这些峰值在 Grafana 中的选定时间范围内不可见。它被聚合到一个较小的平均值,然后看起来只有 40 个 ips。如果我放大相应的时间范围,我会看到这些峰值。

长话短说:InfluxDB 的 Telegraf 女巫 Grafana 没有问题。键盘和椅子之间存在问题。

于 2017-07-10T07:32:26.267 回答