Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
Hadoop权威指南 说:
When you have Minimum split size 1, Maximum split size Long.MAX_VALUE, Block size 64MB then the Split size is 64MB.
TextInputFormat 的逻辑记录是行。由于每行长度不同,我们如何才能将大小精确分割为 64MB?
HDFS 块是字节序列。他们不知道线条或任何其他结构。所以你可能有一个只由一个块组成的分割(当然大小为 64MB),在一行的中间结束(即不包括整个最后一行)。当您使用 TextInputFormat 读取它时,它也会注意从下一个块中读取一些字节,以便您也获得整个最后一行。
始终遵循 2 条规则:
记录的前半部分作为上一个 InputSplit 的最后一条记录