hadoop - hadoop 在字数统计方面的性能不佳 - 调度问题

问问题 2013-12-25T00:53:02.393

249 次

我正在使用 m1.large 机器在 ec2 上运行 16 节点 hadoop 集群。由于 hadoop 所做的愚蠢调度，我面临性能问题。我正在使用带有纱线的 hadoop-2.2.0。

确切的问题如下：

我正在集群上运行 wordcount 程序。有 4GB 的全部数据需要进行字数统计。我目前正在尝试使用 4 个减速器。不幸的是，所有 4 个减速器都安排在同一台机器上，这确实使性能变差。有什么办法可以避免这种情况。是否有一些调度策略可以更好地平衡reduce任务。

PS：我知道hadoop不是为了高性能，但我必须对某些map reduce程序进行基准测试，调度不佳的影响会极大地影响我的基准测试。

谢谢

0 回答 0