1

我正在尝试使用 metrics-graphite 将 Cassandra 3.0 指标报告给 Graphite 服务器,如此处建议的http://www.datastax.com/dev/blog/pluggable-metrics-reporting-in-cassandra-2-0-2。当集群上没有负载时,一切正常,并且所有指标都正确报告。但是如果发生一些负载,我会在 system.log 中收到以下异常:

ERROR [metrics-graphite-reporter-1-thread-1] 2016-07-13 08:21:23,580 ScheduledReporter.java:119 - RuntimeException thrown from GraphiteReporter#report. Exception was suppressed.
java.lang.IllegalStateException: Unable to compute ceiling for max when histogram overflowed
        at org.apache.cassandra.utils.EstimatedHistogram.rawMean(EstimatedHistogram.java:231) ~[apache-cassandra-3.0.7.jar:3.0.7]
        at org.apache.cassandra.metrics.EstimatedHistogramReservoir$HistogramSnapshot.getMean(EstimatedHistogramReservoir.java:103) ~[apache-cassandra-3.0.7.jar:3.0.7]
        at com.codahale.metrics.graphite.GraphiteReporter.reportHistogram(GraphiteReporter.java:265) ~[metrics-graphite-3.1.2.jar:3.1.2]
        at com.codahale.metrics.graphite.GraphiteReporter.report(GraphiteReporter.java:179) ~[metrics-graphite-3.1.2.jar:3.1.2]
        at com.codahale.metrics.ScheduledReporter.report(ScheduledReporter.java:162) ~[metrics-core-3.1.0.jar:3.1.0]
        at com.codahale.metrics.ScheduledReporter$1.run(ScheduledReporter.java:117) ~[metrics-core-3.1.0.jar:3.1.0]
        at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511) [na:1.8.0_91]
        at java.util.concurrent.FutureTask.runAndReset(FutureTask.java:308) [na:1.8.0_91]
        at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.access$301(ScheduledThreadPoolExecutor.java:180) [na:1.8.0_91]
        at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.run(ScheduledThreadPoolExecutor.java:294) [na:1.8.0_91]
        at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142) [na:1.8.0_91]
        at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617) [na:1.8.0_91]
        at java.lang.Thread.run(Thread.java:745) [na:1.8.0_91]

每次报告者尝试获取每个 Cassandra 节点上的指标并且某些指标变得不可用时,都会重复此消息。为了再次接收指标,我必须重新启动所有 Cassandra 节点,这是非常不切实际的。我尝试了从 3.1.0 到 3.1.2 的不同 metrics-graphite 版本,同样的问题。

4

1 回答 1

1

如果您可以在不向 Graphite 报告表和键空间指标的情况下生存,那么这是一种抑制此错误的解决方法。

我们正在使用 DataStax Enterprise 5.0.1,其中包含 Cassandra 3.0.7.1159。我在全新安装(不是升级)中遇到了这个错误,同时使用了 metrics-graphite-2.2.0.jar 和 metrics-graphite-3.1.2.jar,所以我不认为错误取决于版本Coda Hale/Yammer GraphiteReporter 插件。

研究相关的 CASSANDRA Jira 票证,似乎这个错误是由 Cassandra 3.0 指标值变得大于 GraphiteReporter 可以处理的。

在我的 metrics-reporter-config.yaml 中,我使用了白名单通配符值,因此所有指标都报告给 Graphite,如下所示:

graphite:
  -
    period: 60
    timeunit: 'SECONDS'
    prefix: 'dev.servers'
    hosts:
     - host: 'cassandra-1'
       port: 2003
    predicate:
      color: "white"
      useQualifiedName: false
      patterns:
        - ".*"

我们发现的解决方法是,如果我们切换到使用如下所示的特定黑名单(由消除过程确定),以防止报告 Cassandra 表和键空间指标,错误就会消失:

graphite:
  -
    period: 60
    timeunit: 'SECONDS'
    prefix: 'dev.servers'
    hosts:
     - host: 'cassandra-1'
       port: 2003
    predicate:
      color: "black"
      useQualifiedName: true
      patterns:
        - "^org.apache.cassandra.metrics.Table.+"
        - "^org.apache.cassandra.metrics.keyspace.+"

进行此更改后,我不得不重新启动 Cassandra。重新启动后,Cassandra system.log 文件中不再出现错误消息,并且不再报告导致错误消息的指定指标组。

于 2016-08-18T01:04:58.713 回答