我正在设置 lzo 编解码器以用作我的 hadoop 作业中的压缩工具。我知道 lzo 具有创建可拆分文件的理想功能。但我还没有找到让 lzo 自动创建可拆分文件的方法。到目前为止,我阅读的博客都提到在作业之外使用索引器并将输出 lzo 文件作为 mapreduce 作业的输入。
我正在使用一些我不想更改基准代码的 hadoop 基准,只需在 hadoop 中使用 lzo 压缩来查看它对基准的影响。我打算使用 lzo 作为编解码器来压缩地图输出,但如果输出不可拆分,下一阶段将必须让节点中的整个压缩输出能够工作。
是否有任何 hadoop 配置选项来指示 lzo 使输出文件可拆分,从而透明地完成?