1

我正在使用 org.apache.pig.PigServer 类从 Java 运行 pig 脚本。我需要以 gz 压缩的序列格式输出我的文件。这就是我所做的:

effectivePigProperties.put("mapred.output.compress", "true");
effectivePigProperties.put("mapred.output.format.class", "org.apache.hadoop.mapred.SequenceFileOutputFormat");
effectivePigProperties.put("mapred.output.compression.type", "SequenceFile.CompressionType.BLOCK");
effectivePigProperties.put("mapred.output.compression.codec", "org.apache.hadoop.io.compress.GzipCodec");

输出是 gz 但不是序列文件。我错过了什么?

4

1 回答 1

0

虽然尚未出现在 Apache Pig 包(也不是它的 Piggybank)中,但 Twitter 的 Elephant Bird 库提供了一个可供您使用的SequenceFileStorage 实现。

于 2012-11-17T10:18:05.613 回答