第一个问题:我想知道拆分是否以任何方式更改了块(即更改大小、将块移动到另一个位置、创建新块……)。
第二个问题:我认为拆分不会更改块,但它指定每个 MapTask 应该存在并在集群上运行以获取数据的局部性或机架感知,因为 DataNode 已经在运行并且正在拥有块,所以我认为拆分会告诉 Hadoop 在包含数据的节点旁边运行 MapTask。注意:在 InputSplit 中有我认为用于此目的的位置/主机。如果我错了请纠正我
第三个问题:最初在实际执行任务之前,blocks会移动到MapTask所在的位置还是MapTask会移动到blocks所在的位置(即DataNode的位置)?