1

具体来说,我想更改在 Microsoft Azure 上运行的 HDInsight 群集中每个节点的最大映射器数量和最大减速器数量。

使用远程桌面,我登录到头节点。我编辑了头节点上的 mapred-site.xml 文件并更改了 mapred.tasktracker.map.tasks.maximum 和 mapred.tasktracker.reduce.tasks.maximum 值。我尝试重新启动头节点,但无法重新启动。我使用 start-onebox.cmd 和 stop-onebox.cmd 脚本来尝试启动/停止 HDInsight。

然后我运行了一个流式mapreduce,将所需数量的reducer 传递给hadoop-streaming.jar,但是reducer 的数量仍然受到之前mapred.tasktracker.reduce.tasks.maximum 值的限制。我的大多数减速器都在等待执行。

我是否需要更改每个节点上的 mapred-site.xml 文件?有没有一种简单的方法来改变这个,或者我需要远程桌面到每个节点?如何重新启动或重新启动集群以便使用我的新值?

谢谢

4

1 回答 1

2

我知道问题发布已经有一段时间了,但我想为其他可能觉得有用的用户发帖。

有 2 种方法可以在 HDinsight 上更改 Hadoop 配置文件(例如 mapred-site.xml、hive-site.xml 等)

选项 #1:这是最简单的 - 您可以为每个作业提供 hadoop 配置值,如本博客所示

选项 #2:您可以在配置或安装集群期间使用 hadoop 配置值自定义 HDinsight 集群,如本博客所示

不支持手动修改配置文件,并且在重新映像 Azure VM 时更改将丢失。

于 2014-06-05T21:47:29.787 回答