7

在 hadoop 作业计数器中,“映射输出物化字节”与“映射输出字节”有什么区别?当我禁用地图输出压缩时,我没有看到前者,所以我猜它是真正的输出字节(压缩),而后者是未压缩的字节?

4

1 回答 1

10

我想你是对的。从http://hadoop.apache.org/docs/r1.0.4/releasenotes.html

MAPREDUCE-2365。FileInputFormat (BYTES_READ) 和 FileOutputFormat (BYTES_WRITTEN) 的新计数器。用于压缩 MapOutputSize 的新计数器 MAP_OUTPUT_MATERIALIZED_BYTES。(悉达多赛斯)

(自 Hadoop 0.20.2 以来的变化)

..................................................... ..................................................... ..................................................

这是 Tom White 的“Hadoop Definitive Guide”第 3 版(表 8-2,第 261 页)的引述:

“映射输出物化字节” - 映射输出实际写入磁盘的字节数。如果启用映射输出压缩,这将反映在计数器值中。

“映射输出字节数” - 作业中所有映射产生的未压缩输出的字节数。每次collect()在地图的OutputCollector.

于 2012-11-30T00:41:23.707 回答