1

我正在 hadoop 中运行具有以下特征的 map/reduce 作业,让我们看看我是否正确阅读:

Counter                         Map
FILE: Number of bytes read      131,229,590,404
FILE: Number of bytes written   274,528,656,294 
HDFS: Number of bytes read      45,564,455,186
Map output records              303,345,304 
Spilled Records                 604,392,672

根据计数器,我看到它输出了 300M 记录,并溢出了 600M,这向我表明,它需要 2 次完整的数据传递才能对其进行排序。这应该意味着从 HDFS 读取 45G,然后在第一次通过时写入/读取 45G,在第二次通过排序时写入 45G。

mapred.compress.map.output  true
mapred.map.output.compression.codec org.apache.hadoop.io.compress.SnappyCodec

2013-05-13 11:31:32,217 INFO org.apache.hadoop.mapred.Merger: Merging 8 sorted segments

不过,这些数字对我来说是可疑的,压缩后的数据约为 45G,未压缩的数据约为 130G。我想知道我是否只是错误地读取了这些值,或者我是否真的按照上述顺序写出未压缩的地图数据。

4

0 回答 0