Apache Pig v0.7 可以读取 gzip 压缩文件,我无需付出额外的努力,例如:
MyData = LOAD '/tmp/data.csv.gz' USING PigStorage(',') AS (timestamp, user, url);
我可以处理该数据并将其输出到磁盘,好吧:
PerUser = GROUP MyData BY user;
UserCount = FOREACH PerUser GENERATE group AS user, COUNT(MyData) AS count;
STORE UserCount INTO '/tmp/usercount' USING PigStorage(',');
但输出文件未压缩:
/tmp/usercount/part-r-00000
有没有办法告诉STORE
命令以 gzip 格式输出内容?请注意,理想情况下,我想要一个适用于 Pig 0.6 的答案,因为我希望使用 Amazon Elastic MapReduce;但如果有任何版本的 Pig 的解决方案,我想听听。