我有一种情况,文件的整个块位于一台机器上,默认复制因子为 1。
在这种情况下,如果我在集群上启动 hadoop,我觉得我的所有映射任务都只能在一台机器上运行,因为块只存在于那台机器上。这样对吗?本地映射器任务执行是一个约束还是一个优先级?
如果是,是否可以通过将块复制到本地磁盘来配置映射器任务也在其他机器上运行。?
第二个问题是,即使mapper任务只在一台机器上运行,通过复制mapper的中间数据在所有其他机器上启动reducer是否正确?
数据本地执行只是一个优先级,而不是一个约束。如果其他节点上有空闲槽,Hadoop 将生成非本地映射器。您甚至可以为同时运行的相同数据块启动更多映射器——这称为推测执行——首先完成的任务获胜,而其他任务则被杀死。
至于reducers - 他们在称为shuffle的阶段通过网络复制地图输出数据。
该框架尽最大努力使处理尽可能本地化。但在某些情况下,这可能不符合要求。一个显然是插槽不可用。另一种情况可能是当您的 InputSplit 跨越多个块并且每个块位于不同的机器上时。在这种情况下,InputSplit 的另一部分将被移动到启动此 InputSplit 的 Mapper 的节点,以便整个块由 1 个 Mapper 处理。
本地映射器任务执行是一个约束还是一个优先级?
这不是一个约束。只是为了让事情更有效率。否则,将您的大数据从这里移动到那里以进行处理将是多么低效。这是 Hadoop 的基本原则之一。
如果是,是否可以通过将块复制到本地磁盘来配置映射器任务也在其他机器上运行。?
为什么要这么做?如果您真的想在同一块的多个副本上运行 Mappers,您可以将推测执行切换为 true,而不是将块从一个地方复制到另一个地方。这将在多台机器上的同一块上运行多个映射器,您将通过最快的映射器获得输出。
第二个问题是,即使mapper任务只在一台机器上运行,通过复制mapper的中间数据在所有其他机器上启动reducer是否正确?
Reducers 可以在任何有空闲槽的节点上启动。不是所有的机器都必须。