对于 python Hadoop 流作业,如何将参数传递给例如 reducer 脚本,以便它根据传入的参数表现不同?
我了解流式作业以以下格式调用:
hadoop jar hadoop-streaming.jar -input -output -mapper mapper.py -reducer reducer.py ...
我想影响reducer.py。
对于 python Hadoop 流作业,如何将参数传递给例如 reducer 脚本,以便它根据传入的参数表现不同?
我了解流式作业以以下格式调用:
hadoop jar hadoop-streaming.jar -input -output -mapper mapper.py -reducer reducer.py ...
我想影响reducer.py。
命令行选项的参数-reducer
可以是任何命令,所以你可以尝试:
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \
-input inputDirs \
-output outputDir \
-mapper myMapper.py \
-reducer 'myReducer.py 1 2 3' \
-file myMapper.py \
-file myReducer.py
假设myReducer.py
是可执行的。免责声明:我没有尝试过,但我之前-mapper
和-reducer
之前传递过类似的复杂字符串。
也就是说,你有没有试过
-cmdenv name=value
选项,只是让你的 Python 减速器从环境中获得它的价值?这只是做事的另一种方式。
在您的 Python 代码中,
import os
(...)
os.environ["PARAM_OPT"]
在您的 Hapdoop 命令中包括:
hadoop jar \
(...)
-cmdenv PARAM_OPT=value\
(...)
您可以-reducer
按照以下命令
hadoop jar hadoop-streaming.jar \
-mapper 'count_mapper.py arg1 arg2' -file count_mapper.py \
-reducer 'count_reducer.py arg3' -file count_reducer.py \
你可以修改这个 链接
如果您使用的是 python,您可能想查看dumbo,它为 hadoop 流提供了一个很好的包装器。在 dumbo 中,您使用 -param 传递参数,如下所示:
dumbo start yourpython.py -hadoop <hadoop-path> -input <input> -output <output> -param <parameter>=<value>
然后在reducer中读取
def reducer:
def __init__(self):
self.parmeter = int(self.params["<parameter>"])
def __call__(self, key, values):
do something interesting ...
您可以在dumbo 教程中阅读更多内容