java - Hadoop 永远采用 EMR 并分析 EMR

Question

我在 S3 上运行超过 500 个文档的示例 hadoop 作业，在本地运行时需要不到 15 分钟才能完成。但是，当我尝试在 EMR 上运行相同的作业时，需要 2 个多小时，仍然没有完成缩减步骤，所以我终止了它。MapReduce一份工作在 EMR 上花费这么长时间是否有特别的原因？

此外，按照同样的思路，分析 EMR 以查看瓶颈所在的最佳方法是什么？在减速器完成之前，我似乎无法从减速器获取日志文件，但是它们完成的时间太长了..

score 1 · Accepted Answer

根据我使用 AWS EMR 的经验，我发现内存设置（分配给映射或减少任务的数量）、为任务分配的整体 RAM 以及堆大小配置在性能方面发挥着重要作用。下面的链接包含一些信息，谷歌搜索应该会显示其余信息。

1 回答 1