0

我在 S3 上运行超过 500 个文档的示例 hadoop 作业,在本地运行时需要不到 15 分钟才能完成。但是,当我尝试在 EMR 上运行相同的作业时,需要 2 个多小时,仍然没有完成缩减步骤,所以我终止了它。MapReduce一份工作在 EMR 上花费这么长时间是否有特别的原因?

此外,按照同样的思路,分析 EMR 以查看瓶颈所在的最佳方法是什么?在减速器完成之前,我似乎无法从减速器获取日志文件,但是它们完成的时间太长了..

4

1 回答 1

1

根据我使用 AWS EMR 的经验,我发现内存设置(分配给映射或减少任务的数量)、为任务分配的整体 RAM 以及堆大小配置在性能方面发挥着重要作用。下面的链接包含一些信息,谷歌搜索应该会显示其余信息。

http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/TaskConfiguration.html

于 2013-08-07T18:46:57.877 回答