我正在研究 AWS 上的 Hive(特别是 EMR)。他们提供了两种选择
- 生成一个 Ad-hoc 集群,其中在评估执行预先指定的 Hive 查询(在引导程序中)之后拆除 EMR 集群。
- 以交互模式生成 Hive 集群,可以通过 SSH 连接到主节点并使用
hive
命令行客户端提供 Hive 查询。
显然,在第二个选项中,集群将保持活动状态,直到明确要求终止。
我想修改保持活动蜂巢集群中从节点的数量。我在emr faq中读到它只支持添加和删除,task-nodes
但仅支持添加(但不删除)core-nodes
. 核心节点对 HDFS 存储有贡献,但任务节点没有。
我想将更多核心节点添加到正在运行的集群中,并在运行的查询数量较少时缩小它们。有没有办法实现这一点(可能是使用 cloudwatch)?