在 hadoop 的 Job completion History 中,我对一些 FileSystemCounters 感到困惑。
FILE_BYTES_READ 和 HDFS_BYTES_READ 有什么区别。
为什么 HDFS_BYTES_READ 与 Map 输入字节的值不同?
溢出记录和减少输出记录有什么区别?
在 hadoop 的 Job completion History 中,我对一些 FileSystemCounters 感到困惑。
FILE_BYTES_READ 和 HDFS_BYTES_READ 有什么区别。
为什么 HDFS_BYTES_READ 与 Map 输入字节的值不同?
溢出记录和减少输出记录有什么区别?
下面是一个解释 a) FILE_BYTES_READ - 当 Mapper 的输入来自本地文件时计算。通常为 0,但当 mapper 将文件作为中间输出发出时,会发生合并排序来合并文件。mapper 中的 FILE_BYTES_READ 就是这样。
b) HDFS_BYTES_READ - 对于映射器,它是来自 HDFS 的映射输入字节,包括有关拆分的元数据。对于reducer,通常为0。
c) 映射输入字节 - 映射器读取的输入字节的确切数量。通常,输入字节会比 HDFS_BYTES_READ 略少。
d) Spilled Records - 对于 mapper 和 reducer,它是在作业执行期间溢出到磁盘的记录数
e) 减少输出记录 - 减少器发出的最终记录数。