0

是否可以从任何一个创建和运行新的 Hadoop作业

  1. 当前正在执行的常规 Hadoop Java 作业,或
  2. 作为 Hadoop 流作业的一部分执行的 Hadoop 映射器(在 Python 中)。

如何?

4

1 回答 1

1

对于大多数 Java 作业,在 Java 程序中运行 .jar 很简单。与 Python 流式作业相同。

$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \ -input myInputDirs \ -output myOutputDir \ -mapper org.apache.hadoop.mapred.lib.IdentityMapper \ -reducer /bin/wc

于 2013-06-12T11:36:46.490 回答