0

我是 Hadoop 的新手,只是尝试 wordcount 示例。我只是建立一个参考http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-single-node-cluster/的节点

我将一个非常简单的文本上传到 HDFS,然后运行 ​​wordcount.jar。

不知何故,reducer 需要很长时间才能处理。我知道这是 I/O 瓶颈,但有什么方法可以设置一些参数并使其更快?(大声笑,reduce 过程仍然是 0%,差不多 20 分钟)

13/06/04 15:53:14 INFO mapred.JobClient:  map 100% reduce 0%
4

2 回答 2

1

如果要修改一些 Hadoop 设置,例如增加 Reduce 任务的数量,可以使用“-D”选项:

hduser@ubuntu:/usr/local/hadoop$ bin/hadoop jar hadoop*examples*.jar wordcount -D mapred.reduce.tasks=8 /user/hduser/temp-data /user/hduser/temp-data-output

此外,对于 HDFS,您无法强制执行地图任务的数量,mapred.map.tasks但您可以mapred.reduce.tasks按照此链接中的说明进行指定

于 2013-06-05T06:40:08.140 回答
0

您的 Hadoop 似乎有一些问题,并且 MR 无法正常运行。

请检查:

  1. 通过访问你的 Hadoop 是否正常工作http://localhost:50030,也就是你的 hadoop 的 JobTracker WebUI
  2. 查看 $HADOOP_HOME/logs/ 上的日志文件,尤其是*jobtracker*.log, 和*tasktracker*.log.

通常,如果这是您第一次测试 Hadoop。请检查此链接:Hadoop WordCount 示例卡在地图 100% 减少 0%

于 2013-06-05T04:36:51.260 回答