5

我有一个 4 个节点的 RedShift 集群。

  1. 当其中一个节点宕机时,整个集群会变得不可用吗?
  2. 如果是 - 持续多长时间?
  3. 当集群恢复时 - 它是否返回到与故障前完全相同的点,或者数据可能从几个小时前回滚到 S3 快照?
  4. 我如何模拟这种情况来自己检查这种情况?

非常感谢!

4

2 回答 2

8

如果是单个节点故障 - 亚马逊将启动一个新节点并从其他节点流式传输数据(如果有的话,每个块都会写入两个不同的节点)。在这种情况下,我们可以预期:

  1. 整个集群的停机时间,直到新节点启动 + 填充数据库信息。应该是3-4分钟左右。
  2. 在这 3-4 分钟之后,该集群将返回到它下降之前的完全相同的点。集群将可用于读取和写入。
  3. 由于集群中的数据重新分布,会出现一些减速。

如果多个节点发生故障,redshift 将从最新的 S3 备份中恢复。S3 备份在以下情况下完成:

  1. 如果距离上次备份 8 小时
  2. 如果自上次备份以来 RedShift 填充了超过 5GB 的数据
  3. 手动
  4. 当您选择终止集群时,您可以选择最终快照
于 2014-01-15T12:38:30.313 回答
5

它只是发生在我的集群上——其中一个节点失败了。在仪表板中引起注意花了将近 20 分钟(“性能”选项卡中显示不健康,但“状态”选项卡中显示健康)。

在初始故障 1 小时后,集群将其状态更改为“正在修改”,再过 1 小时后,一个新节点就位。

“最近的事件”中有一条消息:

Amazon Redshift 集群“xxx”上的一个节点在 2013 年 12 月 18 日 11:42 UTC 自动替换。集群现在运行正常。

在整个时间集群不可用 - 没有运行查询,没有导入是可能的。

数据与故障时刻完全相同。

于 2013-12-18T15:46:50.940 回答