Pig 在这里做的是正确的事情,并且正在合并数据集。全部是一个文件并不意味着Hadoop中的一个数据集...... Hadoop中的一个数据集通常是一个文件夹。因为它不需要在这里运行reduce,所以它不会。
你需要欺骗 Pig 来运行 Map AND Reduce。我通常这样做的方式是:
set default_parallel 1
...
A = UNION Message_1,Message_2,Message_3,Message_4;
B = GROUP A BY 1; -- group ALL of the records together
C = FOREACH B GENERATE FLATTEN(A);
...
将GROUP BY
所有记录组合在一起,然后将该FLATTEN
列表分解出来。
这里要注意的一件事是,这与执行以下操作没有太大区别:
$ hadoop fs -cat msg1.txt msg2.txt msg3.txt msg4.txt | hadoop fs -put - union.txt
(这是连接所有文本,然后将其作为新文件写回 HDFS)
这根本不是并行的,但也不是通过一个 reducer 汇集所有数据。