问题标签 [self-healing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
amazon-web-services - 管理多个 aws 帐户
我想知道一个系统,通过它我可以跟踪多个 aws 帐户,大约 130 多个帐户,每个帐户包含大约 200 多个服务器。
我想知道跟踪机器故障、服务故障等的
方法。我还想知道如果底层硬件发生故障或机器在现场终止时我可以自动启动机器的方法。
我对所有解决方案持开放态度,包括厨师 / terraform 自动化、治疗脚本等。
你们将为我节省很多不眠之夜 :)
在此先感谢!
kubernetes - 是否在就绪探测失败后重试 Pod
readinessProbe:指示容器是否准备好响应请求。如果就绪探测失败,端点控制器会从与 Pod 匹配的所有服务的端点中删除 Pod 的 IP 地址。初始延迟之前的默认就绪状态是失败。如果 Container 不提供就绪探测,则默认状态为 Success
如果就绪探测失败(并且 Pod 的 IP 地址从端点中删除),接下来会发生什么?是否会再次检查 Pod 的就绪探测条件?它会在初始延迟后再次检查吗?Pod 的 IP 地址是否有可能再次添加到端点(如果 Pod 在就绪探测失败后自我修复)?如果 Pod 痊愈了,它会再次接收流量吗?
kubernetes - docker-compose 是一个自我修复的协调器吗?
在kubernetes中,如果某个 pod 出于某种原因宕机,准入控制器将重新启动它。
我们称这种机制为自我修复。
我从未使用过docker-compose,但我想知道:是一样的吗?
kubernetes - 遵循传奇模式的微服务中的非自愿中断/ SIGKILL 处理
我应该设计我的微服务来处理硬件故障等非自愿中断吗?这些中断是否频繁到足以在 AWS 托管 EKS 集群上运行的服务中处理。
我是否应该考虑在服务中进行一些设计更改以使用诸如在每个步骤中持久化数据之类的方法来处理意外的 SIGKILL,还是将其视为过度工程?
如果是
a) 通常在 1 秒内响应的安静服务(遵循 saga 模式),您会建议使用什么标准方法来处理这些非自愿中断。b) 在 1 小时内处理 1GB 大文件的服务。