如果我有两个文本文件,一个和两个,有什么区别:
bz2 一二 -c >out.bz2
...和...
猫一二 | bzip2 -c >out.bz2
?
具体来说,我正在使用pbzip2生成 bz2 文件,将它们放在 HDFS 上,然后从 pig 中读取它们,我正在点击MAPREDUCE-477。我无法从版本 0.20 升级我的 hadoop 集群,使用非并行 bz2 实现太慢,我想使用非块压缩算法。
有什么方法可以将连接的 bz2 文件转换为非连接的文件?甚至,我将如何修改 pbzip2 以便它生成非连接的 bz2 文件?
谢谢 -