hadoop - Hadoop，MapReduce：如何将第二个节点添加到 mapReduce？

Question

我有 2 个节点的 Hadoop 0.2.2 集群。在我启动的第一台机器上：

在第二个我开始所有这些，除了namenode：

我mapred-site.xml在两台机器上都包含：

<property>
  <name>mapred.job.tracker</name>
  <value>firstMachine:54311</value>
</property>

我在两台机器上的 core-site.xml 包含：

<property>
   <name>fs.default.name</name>
   <value>hdfs://firstMachine:9000</value>
</property>

控制台http://firstMachine:50070报告 2 个节点：

 Live Nodes     :   2 (Decommissioned: 0)

但是控制台http://firstMachine:8088（带有地图减少工作历史和所有这些的控制台）一直在说：

Active Nodes: 1

此外，在有或没有第二台机器的情况下执行 map reduce，Hadoop 产生几乎相同的性能。使用 wordcout 示例进行了尝试，使用了 4 个大文件。

我的问题是：如何检查我的 map reduce 是否实际上在多台（在这种情况下为 2 台）机器上执行，而不仅仅是启动它的那台机器？

如果我的 Hadoop map reduce 实际上没有看到其他 Hadoop 实例，我如何让它看到它（如何配置它以在 2 台机器上运行 map reduce）？

score 2 · Accepted Answer

好的，我找到了答案。显然，在 2.2 版中，大多数（全部？）与 mapred 相关的东西现在都移到了 yarn 中。因此，我不得不使用 yarn-site.xml 文件，而不是使用 mapred-site.xml 文件，并添加到它：

<property>
 <name>yarn.resourcemanager.hostname</name>
 <value>firstMachine</value>
</property>

（请注意，我不必添加端口，这里只声明主机。端口将以其默认值使用）。

现在控制台显示 2 个活动节点，map/reduce 作业快了大约 20%。

1 回答 1