java - 在 OOZIE-4.1.0 中运行多个工作流时出错

Question

我按照http://gauravkohli.com/2014/08/26/apache-oozie-installation-on-hadoop-2-4-1/上的步骤在 Linux 机器上安装了oozie 4.1.0

hadoop version - 2.6.0 
maven - 3.0.4 
pig - 0.12.0

集群设置 -

主节点运行- 名称节点，资源管理器，代理服务器。

从节点运行-Datanode，Nodemanager。

当我运行单个工作流作业时意味着它成功了。但是当我尝试运行多个工作流作业时，即两个作业都处于接受状态在此处输入图像描述

检查错误日志，我将问题深入分析为，

014-12-24 21:00:36,758 [JobControl] INFO  org.apache.hadoop.ipc.Client  - Retrying connect to server: 172.16.***.***/172.16.***.***:8032. Already tried 9 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)
2014-12-25 09:30:39,145 [communication thread] INFO  org.apache.hadoop.ipc.Client  - Retrying connect to server: 172.16.***.***/172.16.***.***:52406. Already tried 9 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)
2014-12-25 09:30:39,199 [communication thread] INFO  org.apache.hadoop.mapred.Task  - Communication exception: java.io.IOException: Failed on local exception: java.net.SocketException: Network is unreachable: no further information; Host Details : local host is: "SystemName/127.0.0.1"; destination host is: "172.16.***.***":52406; 
 at org.apache.hadoop.net.NetUtils.wrapException(NetUtils.java:764)
 at org.apache.hadoop.ipc.Client.call(Client.java:1415)
 at org.apache.hadoop.ipc.Client.call(Client.java:1364)
 at org.apache.hadoop.ipc.WritableRpcEngine$Invoker.invoke(WritableRpcEngine.java:231)
 at $Proxy9.ping(Unknown Source)
 at org.apache.hadoop.mapred.Task$TaskReporter.run(Task.java:742)
 at java.lang.Thread.run(Thread.java:722)
Caused by: java.net.SocketException: Network is unreachable: no further information
 at sun.nio.ch.SocketChannelImpl.checkConnect(Native Method)
 at sun.nio.ch.SocketChannelImpl.finishConnect(SocketChannelImpl.java:701)
 at org.apache.hadoop.net.SocketIOWithTimeout.connect(SocketIOWithTimeout.java:206)
 at org.apache.hadoop.net.NetUtils.connect(NetUtils.java:529)
 at org.apache.hadoop.net.NetUtils.connect(NetUtils.java:493)
 at org.apache.hadoop.ipc.Client$Connection.setupConnection(Client.java:606)
 at org.apache.hadoop.ipc.Client$Connection.setupIOstreams(Client.java:700)
 at org.apache.hadoop.ipc.Client$Connection.access$2800(Client.java:367)
 at org.apache.hadoop.ipc.Client.getConnection(Client.java:1463)
 at org.apache.hadoop.ipc.Client.call(Client.java:1382)
 ... 5 more

Heart beat
Heart beat
.
.

在上述正在运行的作业中，如果我手动终止任何一个启动器作业，则(hadoop job -kill <launcher-job-id>)意味着所有作业都会成功。所以我认为问题是不止一个启动器作业同时运行意味着作业会遇到死锁..

如果有人知道上述问题的原因和解决方案。请尽快帮我一个忙。

score 2 · Accepted Answer

我尝试了以下解决方案，它非常适合我。

1) 将 Hadoop 调度类型从容量调度器更改为公平调度器。因为对于小型集群，每个队列分配一些内存大小（2048MB）来完成单个映射减少作业。如果多个 map reduce 作业在单个队列中运行，则意味着它遇到了死锁。

解决方案：将以下属性添加到yarn-site.xml

  <property>
    <name>yarn.resourcemanager.scheduler.class</name>
    <value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler</value>
  </property>
  <property>
    <name>yarn.scheduler.fair.allocation.file</name>
    <value>file:/%HADOOP_HOME%/etc/hadoop/fair-scheduler.xml</value>
  </property>

2) 默认情况下， Hadoop 总内存大小分配为 8GB。

所以如果我们运行两个mapreduce程序，Hadoop使用的内存超过了8GB，所以就遇到了死锁。

解决方案：使用yarn-site.xml中的以下属性增加节点管理器的总内存大小

<property>
  <name>yarn.nodemanager.resource.memory-mb</name>
  <value>20960</value>
  </property>
  <property>
  <name>yarn.scheduler.minimum-allocation-mb</name>
  <value>1024</value>
  </property>
  <property>
  <name>yarn.scheduler.maximum-allocation-mb</name>
  <value>2048</value>
  </property>

所以如果用户尝试运行两个以上的mapreduce程序意味着他需要增加nodemanager或者他需要增加Hadoop总内存的大小（注意：增加大小会减少系统使用内存。以上属性文件可以运行10个map同时减少程序。）

score 1 · Accepted Answer

问题出在队列上，当我们使用上述集群设置在相同队列（默认）中运行作业时，资源管理器负责在从节点中运行 mapreduce 作业。由于从节点资源不足，队列中运行的作业会遇到死锁情况。

为了解决这个问题，我们需要通过在不同队列中触发 mapreduce 作业来拆分 Mapreduce 作业。

在此处输入图像描述

您可以通过在 oozie workflow.xml中的 pig 操作中设置此部分来执行此操作

<configuration>
<property>
  <name>mapreduce.job.queuename</name>
  <value>launcher2</value>
</property>

注意：此解决方案仅适用于小型集群设置

java - 在 OOZIE-4.1.0 中运行多个工作流时出错

2 回答 2

Related

Reference