我正在使用 Hadoop 流,我启动脚本如下:
../hadoop/bin/hadoop jar ../hadoop/contrib/streaming/hadoop-streaming-1.0.4.jar \
-mapper ../tests/mapper.php \
-reducer ../tests/reducer.php \
-input data \
-output out
“数据”是 2.5 GB 的 txt 文件。
但是在 ps axf 我只能看到一个映射器。我尝试使用 -Dmapred.map.tasks=10,但结果相同 - 单个映射器。
如何让 hadoop 拆分我的输入文件并启动多个映射器进程?