在 hadoop 作业计数器中,“映射输出物化字节”与“映射输出字节”有什么区别?当我禁用地图输出压缩时,我没有看到前者,所以我猜它是真正的输出字节(压缩),而后者是未压缩的字节?
1 回答
我想你是对的。从http://hadoop.apache.org/docs/r1.0.4/releasenotes.html:
MAPREDUCE-2365。FileInputFormat (BYTES_READ) 和 FileOutputFormat (BYTES_WRITTEN) 的新计数器。用于压缩 MapOutputSize 的新计数器 MAP_OUTPUT_MATERIALIZED_BYTES。(悉达多赛斯)
(自 Hadoop 0.20.2 以来的变化)
..................................................... ..................................................... ..................................................
这是 Tom White 的“Hadoop Definitive Guide”第 3 版(表 8-2,第 261 页)的引述:
“映射输出物化字节” - 映射输出实际写入磁盘的字节数。如果启用映射输出压缩,这将反映在计数器值中。
“映射输出字节数” - 作业中所有映射产生的未压缩输出的字节数。每次collect()
在地图的OutputCollector
.