1

我想知道一个系统,通过它我可以跟踪多个 aws 帐户,大约 130 多个帐户,每个帐户包含大约 200 多个服务器。
我想知道跟踪机器故障、服务故障等的
方法。我还想知道如果底层硬件发生故障或机器在现场终止时我可以自动启动机器的方法。
我对所有解决方案持开放态度,包括厨师 / terraform 自动化、治疗脚本等。

你们将为我节省很多不眠之夜 :)

在此先感谢!

4

2 回答 2

2

这纯粹是我对实施您的问题陈述的看法。

1) 嗯.. 为了管理和跟踪多个 AWS 账户,您可以使用AWS Organization。这将帮助您使用一个根帐户集中管理所有其他 130 多个帐户。您也可以启用合并计费。

2)至于跟踪失败......您可能需要根据您的要求对其进行自定义。例如:您可以构建一个微服务,docker containers or ecs其唯一目的是跟踪故障、生成报告并每天推送。您可以在 S3 中s3使用这些报告进一步创建仪表板。AWS quicksight

可以有另一个微服务来纠正故障。这仅取决于您希望实现的详尽程度和细粒度。

3)对于当点实例终止时产生实例,可以通过您简单的自动缩放配置来实现。以下是您可能想要阅读的一些文章,它们会给您一些想法:

将 Spot 实例与按需实例一起使用

优化具有高可用性的 Spot Fleet+Docker

于 2018-02-03T19:14:28.650 回答
0

AWS Organizations对管理很有用。您还可以查看多个帐户的计费策略安全策略。与您的 IAM 用户共享服务帐户将使事情变得更容易。

关于跟踪故障,您可以使用 CloudWatch设置自动实例恢复。CloudWatch 还可以定义警报,当发生意想不到的事情时会通过电子邮件向您发送,尽管单独设置它们可能很耗时。在您的规模上,我认为您应该研究第三方工具。

于 2018-07-30T21:05:18.523 回答