我有一个 4 个节点的 RedShift 集群。
- 当其中一个节点宕机时,整个集群会变得不可用吗?
- 如果是 - 持续多长时间?
- 当集群恢复时 - 它是否返回到与故障前完全相同的点,或者数据可能从几个小时前回滚到 S3 快照?
- 我如何模拟这种情况来自己检查这种情况?
非常感谢!
我有一个 4 个节点的 RedShift 集群。
非常感谢!
如果是单个节点故障 - 亚马逊将启动一个新节点并从其他节点流式传输数据(如果有的话,每个块都会写入两个不同的节点)。在这种情况下,我们可以预期:
如果多个节点发生故障,redshift 将从最新的 S3 备份中恢复。S3 备份在以下情况下完成:
它只是发生在我的集群上——其中一个节点失败了。在仪表板中引起注意花了将近 20 分钟(“性能”选项卡中显示不健康,但“状态”选项卡中显示健康)。
在初始故障 1 小时后,集群将其状态更改为“正在修改”,再过 1 小时后,一个新节点就位。
“最近的事件”中有一条消息:
Amazon Redshift 集群“xxx”上的一个节点在 2013 年 12 月 18 日 11:42 UTC 自动替换。集群现在运行正常。
在整个时间集群不可用 - 没有运行查询,没有导入是可能的。
数据与故障时刻完全相同。