我正在阅读 hadoop 权威指南,其中清楚地解释了输入拆分。它就像
输入拆分不包含实际数据,而是包含 HDFS 上数据的存储位置
和
通常,输入分割的大小与块大小相同
1)假设一个 64MB 的块在节点 A 上,并在其他 2 个节点(B,C)之间复制,map-reduce 程序的输入拆分大小为 64MB,这个拆分是否只有节点 A 的位置?或者它是否具有所有三个节点 A、b、C 的位置?
2)由于数据对于所有三个节点都是本地的,因此框架如何决定(选择)maptask 在特定节点上运行?
3)如果输入拆分大小大于或小于块大小,如何处理?