0

我对 Amazon Elastic MapReduce 完全陌生。我需要使用基于 Hadoop 容量调度程序实现的自定义调度程序在 Amazon Elastic MapReduce 中调度我的作业。

根据我目前的理解,要实现这一点,我可以在作业流程中只定义一个阶段,并通过 SSH 连接将我的自定义 jar 文件提交到主节点。但是,我找不到如何编辑 xml 配置文件,例如 master 节点中的 capacity-scheduler.xml。有谁知道该怎么做?

此外,如果我想在其上添加动态调整大小属性,我可以在作业当前运行时动态调整集群中任务节点的数量吗?或者在每个阶段,集群的大小应该保持不变?太感谢了。

4

1 回答 1

0

您应该使用引导操作来更改 Hadoop 配置。

Hadoop 配置引导操作可以参考以下 AWS 文档。
http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-plan-bootstrap.html#PredefinedbootstrapActions_ConfigureHadoop

我收藏的这篇博客文章也有一些信息。 http://sujee.net/tech/articles/hadoop/amazon-emr-beyond-basics/

要动态更改集群大小,一种选择是使用 AWS 开发工具包。
http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/calling-emr-with-java-sdk.html

使用以下界面,您可以修改实例组的实例计数。 http://docs.aws.amazon.com/AWSJavaSDK/latest/javadoc/com/amazonaws/services/elasticmapreduce/AmazonElasticMapReduce.html

于 2014-08-28T15:33:16.923 回答