是否可以使用 Oozie 将 MapReduce 作业的输出连接到单个文件中?可以说我有输出......
part-r-00000
part-r-00001
part-r-00002
而我只想...
output.csv
我知道我可以将它们作为单个文件拉下来hadoop fs -getmerge
,但我很好奇它是否可以使用工作流应用程序和 HDFS。
我能想到的两个简单的选择:
您可能可以使用 pig 或 Java 来调用
或者也许将它添加到您自己的 Oozie 的 fs-action 分支中。
或者,使用 webhdfs: http ://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/WebHDFS.html#Concat_Files 。
您可以将该 curl 调用包装在 shell 或 ssh 操作中。