1

我在 lzo 设置 7 下压缩了一些日志文件,在默认压缩下压缩了 gzip,我的结果如下:

MapReduce 工作结束:

  • 1GB .gz 文件 - 340 秒
  • 1GB .lzo 文件未编入索引 - 410 秒
  • 1GB .lzo 文件索引 - 380 秒

MapReduce 作业只是利用 Hadoop-LZO 库的 LzoTextInputFormat 类而不是通常的 TextInputFormat 类。这是唯一的区别。

我看到 37 个地图任务通过并拆分作业并使用 .index 文件,但性能还有很多不足之处。有任何想法吗?

4

0 回答 0