问题标签 [hadoop-yarn]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
3579 浏览

java - Start mapreduce job on hadoop 2.2 (Yarn) from java application

I'm trying to call a mapreduce job from a java application. In former hadoop versions (1.x) I created a Configuration object and a Job object, set mapred.job.tracker and fs.default.name in the Configuration and ran the Job. Now, in hadoop 2.x the job tracker does not exist anymore neither exists there any documentation on how to programatically run MR1 jobs. Any ideas?

What I'm looking for is an explaination as given here: Calling a mapreduce job from a simple java program

0 投票
10 回答
76123 浏览

hadoop - Hadoop:连接到 ResourceManager 失败

安装 hadoop 2.2 并尝试启动管道示例后,我得到了以下错误(尝试启动后出现相同的错误hadoop jar hadoop-mapreduce-examples-2.2.0.jar wordcount someFile.txt /out):

我的纱线站点.xml:

核心站点.xml:

mapred-site.xml:

hdfs-site.xml:

我发现我的 IPv6 应该被禁用。也许我的 /etc/hosts 不正确?

/etc/主机:

0 投票
2 回答
3891 浏览

hadoop - 如何更改 Hadoop Apache 2.2 的最大可调度应用程序

我正在玩容量调度程序。我已经分别更新了集群上运行的应用程序总数和用户可以提交的应用程序总数超过 1 个。然而,它不允许我提交一份以上的工作。我正在浏览 Web Interface 上可用的调度程序配置,我遇到了 Max Schedulable Applications,其值为 1。

有人可以告诉我我需要添加哪个属性才能获得超过 1 个的最大可调度应用程序。

0 投票
6 回答
27136 浏览

hadoop - YARN资源管理器未连接到节点管理器

提前感谢您的帮助

我正在运行以下版本:

Hadoop 2.2 zookeeper 3.4.5 Hbase 0.96 Hive 0.12

当我转到 http://:50070 时,我能够正确地看到 2 个节点正在运行。

问题是当我转到 http://:8088 时,它显示 0 个节点正在运行。

我知道 :8088 反映了资源管理器并显示了正在运行的节点管理器的数量。守护进程全部启动,但似乎节点管理器没有连接到资源管理器。

这是日志文件:

我已经检查并且端口 8031 是开放的。

编辑:

对于将来查看此内容的人,我需要将 yarn-site.xml 编辑为如下所示:

0 投票
3 回答
673 浏览

hadoop - 设置伪分布式/单节点设置 Apache Hadoop 2.2

我已将 Apache Hadoop 2.2 安装为单节点集群。当我尝试执行 giraph 示例时,最终出现错误“LocalJobRunner,您不能在拆分主/从模式下运行,因为一次只有 1 个任务”。

我正在浏览论坛,我发现我可以更新 mapred-site.xml 以拥有 4 个映射器。我试过了,但仍然没有帮助。我遇到了,另外一个论坛是我可以将单节点设置更改为伪分布式模式,它解决了这个问题。

有人可以告诉我,我需要更改哪些配置文件才能使单节点设置表现为伪分布式模式。

0 投票
1 回答
1012 浏览

java - 在运行纱线“org.apache.hadoop.ipc.Client - 重试连接到服务器:tasktracker3/10.201.2.169:50000”时出现 apche Pig 错误

我正在使用 Hadoop 2.2.0 运行 Apache Pig 0.11.2。

我在 Pig 中运行的大多数简单作业都运行良好。

但是,每当我尝试在大型数据集或LIMIT运算符上使用GROUP BY时,都会收到以下连接错误:

2013-12-18 11:21:28,400 [main] INFO org.apache.hadoop.ipc.Client - 重试连接到服务器:tasktracker2/10.201.2.145:54957。已尝试 0 次;重试策略是 RetryUpToMaximumCountWithFixedSleep(maxRetries=3, sleepTime=1 SECONDS) 2013-12-18 11:21:29,402 [main] INFO org.apache.hadoop.ipc.Client - 重试连接到服务器:tasktracker2/10.201.2.145:54957 . 已尝试 1 次;重试策略是 RetryUpToMaximumCountWithFixedSleep(maxRetries=3, sleepTime=1 SECONDS) 2013-12-18 11:21:30,403 [main] INFO org.apache.hadoop.ipc.Client - 重试连接到服务器:tasktracker2/10.201.2.145:54957 . 已尝试 2 次;重试策略是 RetryUpToMaximumCountWithFixedSleep(maxRetries=3, sleepTime=1 SECONDS) 2013-12-18 11:21:30,507 [main] INFO org.apache.hadoop.mapred。ClientServiceDelegate - 应用程序状态已完成。最终应用状态=成功。重定向到作业历史服务器 2013-12-18 11:21:31,703 [main] INFO org.apache.hadoop.ipc.Client - 重试连接到服务器:tasktracker1/10.201.2.20:49528。已尝试 0 次;重试策略是 RetryUpToMaximumCountWithFixedSleep(maxRetries=3, sleepTime=1 SECONDS) 2013-12-18 11:21:32,704 [main] INFO org.apache.hadoop.ipc.Client - 重试连接到服务器:tasktracker1/10.201.2.20:49528 . 已尝试 1 次;重试策略是 RetryUpToMaximumCountWithFixedSleep(maxRetries=3, sleepTime=1 SECONDS) 2013-12-18 11:21:33,705 [main] INFO org.apache.hadoop.ipc.Client - 重试连接到服务器:tasktracker1/10.201.2.20:49528 . 已尝试 2 次;重试策略是 RetryUpToMaximumCountWithFixedSleep(maxRetries=3, sleepTime=1 SECONDS) 2013-12-18 11:21:33,809 [main] INFO org.apache.hadoop.mapred.ClientServiceDelegate - 应用程序状态已完成。最终应用状态=成功。重定向到作业历史服务器 2013-12-18 11:21:34,890 [main] INFO org.apache.hadoop.ipc.Client - 重试连接到服务器:tasktracker3/10.201.2.169:50000。已尝试 0 次;重试策略是 RetryUpToMaximumCountWithFixedSleep(maxRetries=3, sleepTime=1 SECONDS) 2013-12-18 11:21:35,891 [main] INFO org.apache.hadoop.ipc.Client - 重试连接到服务器:tasktracker3/10.201.2.169:50000 . 已尝试 1 次;重试策略是 RetryUpToMaximumCountWithFixedSleep(maxRetries=3, sleepTime=1 SECONDS) 2013-12-18 11:21:36,893 [main] INFO org.apache.hadoop.ipc.Client - 重试连接到服务器:tasktracker3/10.201.2.169:50000 . 已尝试 2 次;重试策略是 RetryUpToMaximumCountWithFixedSleep(maxRetries=3, sleepTime=1 SECONDS) 2013-12-18 11:21:36,996 [main] INFO org.apache.hadoop.mapred.ClientServiceDelegate - 应用程序状态已完成。最终应用状态=成功。重定向到作业历史服务器 2013-12-18 11:21:37,152 [main] INFO org.apache.hadoop.mapred.ClientServiceDelegate - 应用程序状态已完成。最终应用状态=成功。重定向到作业历史服务器 ClientServiceDelegate - 应用程序状态已完成。最终应用状态=成功。重定向到作业历史服务器 ClientServiceDelegate - 应用程序状态已完成。最终应用状态=成功。重定向到作业历史服务器

奇怪的是,在这些错误持续出现大约几分钟后,它们会停止,并且正确的输出显示在底部。

所以 Hadoop 运行良好并计算出正确的输出。问题只是这些不断弹出的连接错误。并且导致脚本的执行时间增加。

我注意到的一件事是,每当出现此错误时,作业都会在作业期间创建并运行多个 JAR 文件。但是,在这些消息弹出几分钟后,最终出现了正确的输出。

我有 5 个节点集群 1 个名称节点和 4 个数据节点。所有守护进程都运行良好。

关于如何摆脱这些消息的任何建议?

0 投票
1 回答
1161 浏览

java - Hadoop JobClient.runJob:无法初始化集群 - 误导性错误消息(?)和建议的解决方案

(我现在通过添加本文末尾指定的依赖项解决了这个问题,但想知道是否有更好的选择,或者我是否错过了一些重要的事情?)

尝试运行 mapreduce 作业时,该行

给出以下错误堆栈:

我的设置如下:

在花费大量时间尝试检查并重新检查我的配置后,我设法通过向我的项目添加以下依赖项来解决问题:

hadoop-mapreduce-client-jobclient

我在这里遗漏了什么还是错误信息只是一个特别具有误导性的信息?

0 投票
1 回答
1050 浏览

hadoop - 如何禁用hadoop组合器?

在 wordcount 示例中,组合器显式设置在

job.setCombinerClass(IntSumReducer.class);

我想禁用组合器,以便组合器不处理映射器的输出。有没有办法使用 MR 配置文件(即不修改和重新编译 wordcount 代码)?

谢谢

0 投票
0 回答
4574 浏览

hadoop - MapReduce 作业挂起,“容器”问题

当我运行 MapReduce 作业时,它只是挂起并最终失败(大约 20 分钟后)。

这是我在 :8088 上看到的错误代码

对这个问题有什么想法吗?

我正在运行 Hadoop 2.2。

更新:

看来问题与此有关:

更新 2:

这些错误来自资源管理器日志:

0 投票
2 回答
1891 浏览

hadoop - 纱线组件

什么是

  1. 节点管理器
  2. 容器
  3. 应用大师

在 YARN (Map Reduce 2.0) 中?

https://hadoop.apache.org/docs/current2/hadoop-yarn/hadoop-yarn-site/YARN.html

还想知道为什么上面链接图的底部框中没有应用程序大师?

我不是在寻找它的作用,而是它是什么!(比如 => 不确定容器是否意味着像 spring 容器(这意味着 jar 文件列表?)或它的服务器像 web 服务器?应用程序主是指简单的 Java 类吗?)