所以我有一个持续的事件指标。它们要么被标记为成功要么失败。所以我有3个数字;失败,完成,总计。这很容易(在 Datadog 中)使用堆积条形图来说明,如下所示:
所以黑暗的部分是失败。通过查看 y 标度和标度的红色虚线,这很容易告诉人们该速率是否是一个问题并且很重要。这意味着我的故障率超过 60%,至少在一段时间内(10 分钟?),并且在此期间有足够的事件来考虑故障率异常。
因此,我正在寻找某种公式,其开头为:失败除以总数(给我一个介于 0 和 1 之间的分数),然后以某种方式再次将其乘以总数和我认为的一些阈值意味着总数足够高我得到一个自动警报。
为了获得额外的荣誉,这是我试图开始工作的实际 Datadog 指标:
(sum:event{status:fail}.rollup(sum, 300) / sum:event{}.rollup(sum, 300))
我正在观看 15 分钟,并提示分数高于 0.75。但我不确定 sum、count、avg、rollup 或 count。当事件总数低到足以证明高故障率并不能证明有任何问题时,ofc 会在夜间向我发送邮件。