我在 lzo 设置 7 下压缩了一些日志文件,在默认压缩下压缩了 gzip,我的结果如下:
MapReduce 工作结束:
- 1GB .gz 文件 - 340 秒
- 1GB .lzo 文件未编入索引 - 410 秒
- 1GB .lzo 文件索引 - 380 秒
MapReduce 作业只是利用 Hadoop-LZO 库的 LzoTextInputFormat 类而不是通常的 TextInputFormat 类。这是唯一的区别。
我看到 37 个地图任务通过并拆分作业并使用 .index 文件,但性能还有很多不足之处。有任何想法吗?