1

我是 Hadoop 新手。在对我的 MapReduce 作业进行编码后,我决定在共享集群上对其进行测试。我最初在单个节点上测试了我的工作。但后来我添加了 4 个节点在 5 (1+4) 上进行测试。容量调度程序显示以下信息:

队列配置
容量百分比:100.0%
用户限制:100%
支持优先级:否

映射任务
容量:10 个插槽
已用容量:2(容量的 20.0%)正在
运行的任务:2
活跃用户:
用户 'juancito':2(已用容量的 100.0%)

因为有 1 个节点我有 2 个插槽,现在有 5 个节点我有 10 个插槽,我猜每个节点有两个插槽(如果我错了,请纠正我)。现在,调度程序说我只使用了 20% 的容量。这是否意味着我实际上并没有使用我添加的 4 个节点?插槽数量是否会影响我正在运行的作业的性能?有没有办法知道并行化是否真的发生了?如果不使用我添加的 4 个节点,如何将用户“juancito”(我自己)的容量从 2 个增加到 10 个,以便他可以享受 5 个节点的全部映射容量?谢谢。

4

1 回答 1

1

您只使用了 20% 的容量,因为您只使用了 10 个插槽中的 2 个。这样做的原因是您的工作只需要两个地图任务。您是否只有两个输入文件(或一个输入文件大到可以分成 2 个部分)?

仅仅因为你有更多的容量,这并不意味着你的工作实际上需要额外的容量。但是,您可以同时运行更多作业,并能够更好地利用集群资源。

于 2013-11-13T15:51:08.133 回答