1

我正在直接使用 HTTP API 并尝试从我们的存储中获取一些指标。

该文档指出“提示:如果您希望指标在用户界面中显示为百分比,则必须在 JSON 中将其定义为百分比。”

但是 - 我不能发送百分比的度量值;POST 响应的状态为 400,正文为

{"error":"Unable to parse request: null"}

我的帖子是

{"components": [
   {"duration": 1,
    "guid": "com.cumulus.Test5",
    "name":"ServerX",
    "metrics": {
      "Component/Filesystem/root/Percentage Used": "62%"
    }
   }],
 "agent": {"host": "vss-syd", "version": "1.0.0", "pid": 1080}
}

另外 - 我有一个指标“离线设备数”(对于 ZFS 存储池),它是离散的,即不连续的 - 所以平均值没有意义,只是绝对值。

如果它超过0,我想设置一个警报。我知道阈值只是“大于”,所以我可以设置阈值@ 0.1 Alert & 0.2 Critical no prob。

但是 - 请有人指出我应该如何做的正确方向

  1. 发送这样的指标(即需要指定 [units] 和聚合?)
  2. 在前端创建摘要指标 + 图表?(选择哪个“值”,例如“每分钟通话次数”)
4

1 回答 1

1

有两个问题看起来可能是原因。

第一个是持续时间应该是 60,它表示报告的指标对应的秒数。NewRelic 已针对此特定间隔进行了优化,虽然您可以使用更大的值(建议的最大值为 300 秒),但所需的最小值为 60。API 可以接受较小的值,但结果将是不可预测的。

第二个是使用的百分比是一个字符串值,如果您希望保持该级别的精度,则应该将其报告为整数值,例如 62,或者 62.0 的浮点值。

关于您关于报告和显示与“故障磁盘数量”相关的指标的问题的第二部分:

New Relic 目前不支持表示绝对值的报告指标。所有指标值都在某个特定时间段内汇总显示。摘要指标在最近的约 4 分钟内汇总,而图表和表格上的指标在时间选择器中选择的时间段内汇总。

也就是说,您可以尝试按照“故障磁盘的百分比”的方式进行尝试,其中平均值可能仍然有用,因为任何非零值都表示故障。

一旦聚合时间段变得大于几分钟,这个平均值就会有问题。但是,鉴于摘要指标总是在约 4 分钟的固定时间段内汇总——并且触发警报的是摘要指标——这可能对您仍然有用。

于 2013-11-06T18:45:56.633 回答