0

我是hadoop的新手。我想检查我是否研究过并质疑一个假设。

这就是想法。比如hadoop中有5个节点,1个应该是master。每个从节点都有 1 个 MR 任务。- 在 conf/mapred-site.xml 中配置。

这是我研究过的,我已经运行了 hadoop 示例。MR 自动决定地图任务的字数。

Q1。它与块大小选项或其他东西有关吗?

它可以通过属性进行更改。当我运行 PI 和随机文本编写器时,它发生了变化。

Q2。是否可以更改任何其他 MR 程序?我的意思是,在字数方面,属性会影响地图任务的数量。

这是另一个想法。在这种情况下,我有 4 个从站,2 个地图任务。这意味着,它可以一次运行 2 个节点。

这只是假设。JT做了2个地图任务,估计时间超过1小时。这对表演没有好处。2 个节点未运行。如果使用 4 个节点的地图,它可能会更快。我想在作业运行时分离现有地图。

Q3。这种假设的可能性。如果可以,请告诉我如何获取参考资料。

我在等你的建议。

谢谢你们。

4

2 回答 2

0

对于您的第一个问题,它与您拥有的块大小和文件数量有关,例如,您有 3,7 gb 数据和 512 mb 数据大小,它为此创建了 8 个地图任务。此外,它与您输入目录中的文件号直接相关。对于目录中的每个文件,至少会创建一个地图任务。您也可以通过编程方式增加(是的,这意味着您不能减少)地图任务。

于 2013-03-13T11:38:47.323 回答
-1

感谢您的回答。

首先,我没有考虑文件的数量。实际上,当 MR 在 JVM 中运行时,我对拆分映射感到好奇。我试图找到一些信息,它没有用。

现在好了,我知道了 hadoop 配置的重要性,尤其是 mapred-site.xml 对 MR 的重要性,我将进一步研究配置。

再次感谢你。

于 2013-03-14T02:04:48.547 回答