1

我有 2 个节点的 Hadoop 0.2.2 集群。在我启动的第一台机器上:

  • 名称节点
  • 数据节点
  • 节点管理器
  • 资源管理器
  • 作业历史服务器

在第二个我开始所有这些,除了namenode:

  • 数据节点
  • 节点管理器
  • 资源管理器
  • 作业历史服务器

mapred-site.xml在两台机器上都包含:

<property>
  <name>mapred.job.tracker</name>
  <value>firstMachine:54311</value>
</property>

我在两台机器上的 core-site.xml 包含:

<property>
   <name>fs.default.name</name>
   <value>hdfs://firstMachine:9000</value>
</property>

控制台http://firstMachine:50070报告 2 个节点:

 Live Nodes     :   2 (Decommissioned: 0)

但是控制台http://firstMachine:8088(带有地图减少工作历史和所有这些的控制台)一直在说:

Active Nodes: 1

此外,在有或没有第二台机器的情况下执行 map reduce,Hadoop 产生几乎相同的性能。使用 wordcout 示例进行了尝试,使用了 4 个大文件。

我的问题是:如何检查我的 map reduce 是否实际上在多台(在这种情况下为 2 台)机器上执行,而不仅仅是启动它的那台机器?

如果我的 Hadoop map reduce 实际上没有看到其他 Hadoop 实例,我如何让它看到它(如何配置它以在 2 台机器上运行 map reduce)?

4

1 回答 1

2

好的,我找到了答案。显然,在 2.2 版中,大多数(全部?)与 mapred 相关的东西现在都移到了 yarn 中。因此,我不得不使用 yarn-site.xml 文件,而不是使用 mapred-site.xml 文件,并添加到它:

<property>
 <name>yarn.resourcemanager.hostname</name>
 <value>firstMachine</value>
</property>

(请注意,我不必添加端口,这里只声明主机。端口将以其默认值使用)。

现在控制台显示 2 个活动节点,map/reduce 作业快了大约 20%。

于 2013-11-08T14:54:33.907 回答