上周我刚刚使用 CloudWatch 实现了一些警报,我注意到 EC2 小型实例每天在 6h30 和 6h45(UTC 时间)之间出现奇怪的行为。
当 AutoScallingGroup 在 3 分钟内其 CPU 超过 50%(平均样本)时,我实现了一个警报来警告我,当同一个 AutoScallingGroup 恢复正常时,我实施了另一个警报来警告我,我认为这在 3 分钟内 CPU 低于 30% (也是平均样本)。这样做了 2 次:一次用于 A 区,另一次用于 B 区。
看起来不错,但是在 6h30 到 6h45 期间发生了一些事情,需要 2 到 5 分钟进行一定量的处理。CPU上升,有时会触发“高使用警报”,但总是触发“恢复正常警报”。我们的系统目前处于早期开发阶段,因此没有用户可以访问它,我们也没有任何进程/备份/等计划。我们几乎没有安装和配置 Apache+PHP,所以我猜它只能与主机有关。
除了增加采样时间或“恢复正常”警报中的百分比之外,任何人都可以解释发生了什么以及我们如何解决它?亚马逊论坛上的人说,服务团队一有机会就会去看看,但已经快一周没有回来了。