0

我有一个大表,它是用 Pig Editor 在 Hue 中生成的,包含大约十万条记录。Pig 返回一些部分文件和单独的 .pig_header 和 .pig_schema 文件。我需要将所有零件文件和标题作为 .txt 格式的完整表格。我可以用 getmerge 命令做到这一点:

-- To delete schema from output folder
    fs -rm /OUTPUT_folder/.pig_schema
--To merge all the part files and header from output folder and to save result in .txt file  
    fs -getmerge /OUTPUT_folder/* /Another_folder/Result.txt

我想问一下Cloudera中是否有任何方法可以在不使用getmerge命令的情况下获得这个完整的表?

也许 Cloudera 中有一个软件或命令允许一次组合部分文件。

然后我只需要打开这个表,所有列的标题都以“有序的方式”,什么更好地用于色调中的这个目标?

4

1 回答 1

0

您可以尝试执行最终的 GROUP BY ALL 和 ORDER BY 后跟 FOREACH FLATTEN() ,这样所有记录都将进入单个减速器,因此只会在一个文件中。

于 2014-02-08T05:48:14.187 回答