hadoop - 从当前正在运行的 Job 运行新的 Hadoop 流式作业

Question

是否可以从任何一个创建和运行新的 Hadoop流作业

当前正在执行的常规 Hadoop Java 作业，或
作为 Hadoop 流作业的一部分执行的 Hadoop 映射器（在 Python 中）。

如何？

score 1 · Accepted Answer

对于大多数 Java 作业，在 Java 程序中运行 .jar 很简单。与 Python 流式作业相同。

$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \ -input myInputDirs \ -output myOutputDir \ -mapper org.apache.hadoop.mapred.lib.IdentityMapper \ -reducer /bin/wc

hadoop - 从当前正在运行的 Job 运行新的 Hadoop 流式作业

1 回答 1

Related

Reference