amazon-web-services - 如何通过 StatusCheckFailed_Instance 指标使用 Cloudwatch 警报恢复 EC2（不是 StatusCehckFailed_System 指标！！！）

问问题 2021-03-17T06:26:39.697

90 次

我正在寻找一种在实例失败时自动恢复 EC2 的解决方案，通过操作系统错误进行状态检查。

由于应用程序的OOM（Out of memory）或High disk IO的OOM，磁盘吞吐量太高，其中一个实例经常无法进行状态检查。如果某些实例因操作系统错误而出现问题，指示 CloudWatch 指标中的 StatusCheckFailed_instance

有时重启没有解决失败状态检查问题，需要停止和启动实例，甚至是 StatusCheckFailed_instance。但是当指标为 StatusCheckFailed_instance 时，CloudWatch 警报不会为问题实例提供恢复（停止和启动）操作...仅在 StatusCheckFailed_System 时提供。 https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/UsingAlarmActions.html#AddingRecoverActions

得到StatusCheckFailed_instance时如何自动恢复问题实例？？？？

0 回答 0