根据 Amazon Elastic MapReduce 上使用/可用的实例,计算要使用的正确 hadoop 映射器和缩减器数量的最佳方法是什么?(使用 mahout-core-0.7 发行版的 RecommenderJob)
问问题
1421 次
1 回答
1
通用的 Hadoop 答案适用:
- 让 Hadoop 选择映射器的数量
- 将 reducer 的数量设置为集群中的 reduce 槽数
对于 EMR,查找在您使用的实例类型上默认运行的减速器数量:http: //docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/HadoopMemoryDefault_AMI2.3.html
然后乘以您正在使用的工人数量。这是一个非常理想的减速器数量——甚至是它的一小部分。
除非您有特定的理由认为这些不是最佳选择,否则我会同意这一点。
PS 不要忘记为您的工作人员使用现场实例来节省资金和/或部署更多工作人员。
广告插播:如果您对 Mahout、推荐以及在 EMR 上运行感兴趣,您可能应该关注Myrrix。我是创始人,也是您现在运行的一些 Mahout 代码的作者。这是一个“下一代”基于 Hadoop 的推荐产品,除其他外,它已经针对 EMR 进行了很好的优化。
于 2013-03-06T22:27:08.380 回答