0

我有一个文件,我试图将它加载到用 snappy 压缩的 pig 中。我在 grunt 中设置了配置选项,就像在这个 jira 问题中描述的那样,但我仍然在结果中获得压缩数据。

当我运行该作业时,它确实说:org.apache.hadoop.io.compress.snappy.LoadSnappy - Snappy 本机库可用

对于这项工作,我使用 PigStorage() as (x, y, z) 做了一个简单
的 a = load '/path/to/snappy/file'

然后:
转储数据

将输出压缩数据。

有谁知道我可以做些什么来正确读取数据?提前致谢。

4

1 回答 1

1

PigStorage 使用 PigTextInputFormat 进行输入,它将检测并使用 Snappy 压缩文件,但文件必须具有正确的扩展名,以便 hadoop 压缩编解码器工厂知道使用 snappy。

我的猜测是您的文件没有 .snappy 扩展名,请尝试重命名文件并重试

于 2013-01-24T02:13:09.400 回答