我对在 AWS 上部署 CDH 有一些疑问。我阅读了在 Cloudera 工程博客上找到的参考架构文档和其他材料,但我需要更多关于它的建议。
1) CDH 部署是否仅适用于某些类型的实例,或者我可以将它部署在所有 AWS 实例类型上?
2) 假设我想创建一个 24x7 全天候活动的集群。对于一个长时间运行的集群,我理解最好有一个基于本地存储实例的集群。如果我们考虑一个 2PB 的集群,我认为 d2.8xlarge 应该是数据节点的最佳选择。关于主节点: - 如果我只想部署 3 个主节点,最好将它们也作为本地存储实例还是作为 EBS 附加实例,以便能够对可能的主节点故障做出快速反应?- 是否有一些关于主节点实例类型(EBS 或本地存储)的最佳实践?关于数据节点: - 如果数据节点失败,CDH 是否有某种自动化机制来自动启动新实例并将其连接到集群,以便在不停机的情况下恢复集群?我们是否要从头开始构建一个脚本来做这件事?关于边缘节点: - 是否有关于实例类型(EBS 或本地存储)的最佳实践?
3) 如果我想在 S3 上备份集群: - 当我从 CDH 到 S3 进行 distcp 时,我可以将数据直接移动到 Glacier 而不是普通的 S3 上吗?如果我对数据应用了一些压缩(例如 snappy、gzip 等)并且我对 S3 进行了 distcp: - S3 上占用的空间是否相同或 distcp 命令解压缩数据以进行复制?
如果我有一个基于 EBS 附加实例的集群: - 是否可以对磁盘进行快照并使用从快照重建的 EBS 磁盘重新附加数据节点?
4) 如果我将数据节点部署为 r4.8xlarge 并且我需要更多的马力,是否可以将集群从 r4.8xlarge 即时扩展到 r4.16xlarge?在几分钟内连接和分离磁盘?
非常感谢您的澄清,我希望我的疑问也能帮助其他用户。