如果在 60 分钟内记录了超过 10 个错误,我们会发出 SumoLogic 警报。
我更喜欢这样的东西:
- 如果出现峰值并且所有错误都在例如 1 分钟内发生(认为问题已自动解决),则不生成警报。
如何设置这样的 sumoLogic 查询?
要求的差异:
日志有 clientIp 字段,如果所有错误都是针对同一个客户端报告的,则不生成警报(特定客户端的问题,而不是应用程序的问题)
如果 60 分钟内记录的错误超过 10 个,则发送警报,除非错误是 A 类错误,但如果 A 类错误超过 100 个,则发送警报。(可以接受 A 类日志错误,除非错误数量太大了)
如果在 60 分钟内记录了超过 10 个错误,则发送警报仅当最后一个错误发生在 30 分钟之前(否则视为自动修复)