我有一个 2 节点 hadoop(1 是主/从和另一个从)设置和 4 个输入文件,每个文件大小为 1GB。当我将 dfs.replicate 设置为 2 时,整个数据都会复制到两个节点,这是可以理解的。但我的问题是,我如何看到单个节点设置的性能改进(几乎是两倍),因为在 2 节点的情况下,map-reduce 仍将在两个系统上运行完整的数据集以及添加的将输入从 2 个映射器引导到减速器的开销。
此外,当我将复制设置为 1 时,整个数据仅存在于主节点上,这也是可以理解的,以避免以太网开销。但即使在这种情况下,与单节点设置相比,我也看到了性能提升,这让我感到困惑,因为 map-reduce 在本地数据集上运行,这种情况本质上应该类似于在主节点上运行一个 map-reduce 程序的单节点设置整个数据集上的节点??
有人可以帮我理解我在这里缺少什么吗???
谢谢帕万