Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我想使用 Hadoop Map/Reduce 处理使用 LZO 以外的其他东西压缩的分隔协议缓冲区文件,例如xz或gzip. Twitter 的大象鸟库似乎主要支持读取 LZO 压缩的 protobuf 文件,因此似乎不能满足我的需求。是否有现有的库或标准方法来执行此操作?
xz
gzip
(注意:正如您从我选择的压缩算法中看到的那样,解决方案没有必要使 protobuf 文件可拆分。您的答案甚至不需要指定特定的压缩算法,但应该允许至少一个我提到的那些。)
您可能需要查看 Hadoop 的 RAgzip 补丁,以处理大型 gzip 文件的多个地图任务:RAgzip