我们有三个 EC2 实例——在 eu-west-1 区域的每个可用区 (AZ) 中都有一个。它们使用 ELB 进行负载平衡。我们想使用 CloudWatch 监控在负载均衡器上注册了多少实例。问题在于:我不太了解这个HealthyHostCount
指标。
对于部署,我们希望能够在不通知的情况下注销单个实例(将其从 LB 中取出)。所以警报会是:通知负载均衡器后面是否只有 1 个健康实例 5 分钟。
据我了解,HealthyHostCount
(HHC)是在给定 ELB 中注册的健康实例的数量,是所有 AZ 的平均值。如果一切正常,HHC 应该为 1(无论在什么时间段内),因为每个 AZ 中有 1 个实例。
几天前,有人部署没有重新注册实例,所以只有一个实例被平衡。当我们注意到这一点时,我们创建了一个警报,当平均 HHC 在 5 分钟后降至 0.6 以下时通知我们。(如果在 ELB 中只注册了 1 个实例,则 HHC 应在任何时间段内平均为 0.33。)但是,警报从未更改为状态“ALARM”。
当我在 CloudWatch 中检查 HHC 时,HHC 是没有意义的数字(我现在只记得 5 分钟间隔的 10.0 的总和)。
这对我来说都是一团糟。每当我认为我理解了该指标时,CloudWatch 图表对我来说都是胡言乱语。
有人可以解释一下如何在只注册一个实例时使用 HHC 来获取警报吗?平均 HHC 是要走的路还是我应该使用其他指标?