我有一个关于 AWS CloudWatch Logs 的有趣场景。我目前使用 log4net 并使用 CloudWatch Logs 代理将所有日志泵入 CloudWatch Logs。我在 CloudWatch 中有一个指标,它基本上会扫描 [ERROR] 条目,并且警报会在它们发生时将它们传递给另一个服务以获取开发通知(阈值 >= 1,周期 - 1 分钟)。所有这一切都很好。
现在我想以不同的方式处理某些错误。例如,基于异常类型,我只想在 N 分钟内发生 X 次事件时触发警报。所以在这种情况下,我会为此条件创建一个指标,然后将其分配给警报。问题是一般错误度量,在本问题的第一部分中解释,仍在跟踪每个单独的错误发生。所以现在我收到了多个通知。每个错误一个,出现 X 次后一个。
我可以禁用一般错误指标,但我会失去跟踪未处理异常的能力。对于每一个可能的异常,我都必须有一个指标。我错过了什么吗?处理这个问题的最佳方法是什么?