1

根据 Amazon Elastic MapReduce 上使用/可用的实例,计算要使用的正确 hadoop 映射器和缩减器数量的最佳方法是什么?(使用 mahout-core-0.7 发行版的 RecommenderJob)

4

1 回答 1

1

通用的 Hadoop 答案适用:

  • 让 Hadoop 选择映射器的数量
  • 将 reducer 的数量设置为集群中的 reduce 槽数

对于 EMR,查找在您使用的实例类型上默认运行的减速器数量:http: //docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/HadoopMemoryDe​​fault_AMI2.3.html

然后乘以您正在使用的工人数量。这是一个非常理想的减速器数量——甚至是它的一小部分。

除非您有特定的理由认为这些不是最佳选择,否则我会同意这一点。

PS 不要忘记为您的工作人员使用现场实例来节省资金和/或部署更多工作人员。

广告插播:如果您对 Mahout、推荐以及在 EMR 上运行感兴趣,您可能应该关注Myrrix。我是创始人,也是您现在运行的一些 Mahout 代码的作者。这是一个“下一代”基于 Hadoop 的推荐产品,除其他外,它已经针对 EMR 进行了很好的优化。

于 2013-03-06T22:27:08.380 回答