0

我正在使用 m1.large 机器在 ec2 上运行 16 节点 hadoop 集群。由于 hadoop 所做的愚蠢调度,我面临性能问题。我正在使用带有纱线的 hadoop-2.2.0。

确切的问题如下:

我正在集群上运行 wordcount 程序。有 4GB 的全部数据需要进行字数统计。我目前正在尝试使用 4 个减速器。不幸的是,所有 4 个减速器都安排在同一台机器上,这确实使性能变差。有什么办法可以避免这种情况。是否有一些调度策略可以更好地平衡reduce任务。

PS:我知道hadoop不是为了高性能,但我必须对某些map reduce程序进行基准测试,调度不佳的影响会极大地影响我的基准测试。

谢谢

4

0 回答 0