3

是否可以使用 Oozie 将 MapReduce 作业的输出连接到单个文件中?可以说我有输出......

part-r-00000
part-r-00001
part-r-00002

而我只想...

output.csv

我知道我可以将它们作为单个文件拉下来hadoop fs -getmerge,但我很好奇它是否可以使用工作流应用程序和 HDFS。

4

2 回答 2

2

我能想到的两个简单的选择:

  1. 修改产生此输出的作业以使用单个减速器
  2. 使用身份映射器、身份归约器和单个归约器运行 map-reduce 操作
于 2013-03-06T00:04:59.803 回答
0

您可能可以使用 pig 或 Java 来调用

http://hadoop.apache.org/docs/current/api/org/apache/hadoop/fs/FileSystem.html#concat-org.apache.hadoop.fs.Path-org.apache.hadoop.fs.Path:一个-

或者也许将它添加到您自己的 Oozie 的 fs-action 分支中。

或者,使用 webhdfs: http ://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/WebHDFS.html#Concat_Files 。

您可以将该 curl 调用包装在 shell 或 ssh 操作中。

于 2017-02-15T12:42:43.307 回答