0

我正在寻找一种在实例失败时自动恢复 EC2 的解决方案,通过操作系统错误进行状态检查。

由于应用程序的OOM(Out of memory)或High disk IO的OOM,磁盘吞吐量太高,其中一个实例经常无法进行状态检查。如果某些实例因操作系统错误而出现问题,指示 CloudWatch 指标中的 StatusCheckFailed_instance

有时重启没有解决失败状态检查问题,需要停止和启动实例,甚至是 StatusCheckFailed_instance。但是当指标为 StatusCheckFailed_instance 时,CloudWatch 警报不会为问题实例提供恢复(停止和启动)操作...仅在 StatusCheckFailed_System 时提供。 https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/UsingAlarmActions.html#AddingRecoverActions

得到StatusCheckFailed_instance时如何自动恢复问题实例????

4

0 回答 0