0

在 hadoop 的 Job completion History 中,我对一些 FileSystemCounters 感到困惑。

  1. FILE_BYTES_READ 和 HDFS_BYTES_READ 有什么区别。

  2. 为什么 HDFS_BYTES_READ 与 Map 输入字节的值不同?

  3. 溢出记录和减少输出记录有什么区别?

4

1 回答 1

0

下面是一个解释 a) FILE_BYTES_READ - 当 Mapper 的输入来自本地文件时计算。通常为 0,但当 mapper 将文件作为中间输出发出时,会发生合并排序来合并文件。mapper 中的 FILE_BYTES_READ 就是这样。

b) HDFS_BYTES_READ - 对于映射器,它是来自 HDFS 的映射输入字节,包括有关拆分的元数据。对于reducer,通常为0。

c) 映射输入字节 - 映射器读取的输入字节的确切数量。通常,输入字节会比 HDFS_BYTES_READ 略少。

d) Spilled Records - 对于 mapper 和 reducer,它是在作业执行期间溢出到磁盘的记录数

e) 减少输出记录 - 减少器发出的最终记录数。

于 2013-06-24T10:40:56.143 回答