hadoop - hadoop - 如果文件只有一条记录并且文件大小大于块大小，输入拆分形式如何？

翻译自：https://stackoverflow.com/questions/35738523 2016-03-02T04:28:33.080

158 次

0

解释问题的例子 -

我有一个大小为 500MB 的文件（input.csv）

该文件仅包含一行（记录）

那么文件将如何存储在 HDFS 块中以及如何计算输入拆分？

1 回答 1

0

您可能必须检查此链接：Hadoop 进程记录如何跨块边界拆分？注意提到的“远程阅读”。

您问题中提到的单个记录将存储在许多块中。但是，如果您使用 TextInputFormat 进行读取，则映射器必须跨块执行远程读取以处理记录。

于 2016-03-02T13:37:21.217 回答