我在多个文件夹中分割网格上的 map-reduce 输出。每个文件的格式都是一样的。每个文件夹都有一堆文件:示例:/folderpath/folder1/part-r-00001 到 /folderpath/folder1/part-r-00100 ... /folderpath/folder/part-r-00001 到 /folderpath/foldern/部分-r-00100
将内容组合在一起的最简单方法是什么,即将文件聚合到单个文件夹中(我想稍后使用) /folderpath/merged/part-r-0000* ... /folderpath/merged/part-r-000n
我可以想到猪脚本,它从每个路径读取输出并读取关系并集,然后转储它们。
任何其他选项/命令?