问题标签 [hadoop2]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
434 浏览

java - Hadoop 的分布式缓存文件程序不生成任何输出

我们正在尝试设计一个简单的程序,其目标是从文件中读取专利数据,并检查其他国家是否引用了该专利,这是来自'Hadoop in Action'我们'chuck Lam'正在尝试了解的教科书advanced map/reduce programming

我们设置的hadoop发行版是Local Node,我们正在执行程序Windows environment,使用cygwin

这是我们下载文件的 URL http://www.nber.org/patents/:apat63_99.txtcite75_99.txt.

我们'apat63_99.txt'用作分布式缓存文件,并且'cite75_99.txt'input文件夹中,我们从命令行参数传递。

问题是程序没有生成输出,我们看到的输出文件中没有数据。

我们已经尝试过映射器阶段和减速器阶段的输出,两者都是空白的。

这是我们为此任务开发的代码:

该工具是EclipseHadoop's version我们正在使用的是1.2.1.

这些是运行作业的命令行参数:

这是程序执行时生成的跟踪:

请让我们知道我们哪里出错了,如果我错过了任何重要信息,请告诉我。

谢谢并恭祝安康

0 投票
2 回答
5656 浏览

hadoop - Hadoop 作业在由 yarn (MRv2) 或 mapred (MRv1) 以外的用户提交时失败

我正在运行一个运行 MRv1 (CDH5) 与 LocalFileSystem 配对的测试集群,并且我唯一能够像 mapred 一样运行作业的用户(因为 mapred 是启动 jobtracker/tasktracker 守护程序的用户)。当以任何其他用户身份提交作业时,作业会失败,因为 jobtracker/tasktracker 无法在 .staging 目录下找到 job.jar。

当与 LocalFileSystem 配对时,我对 YARN (MRv2) 有完全相同的问题,即当由“yarn”以外的用户提交作业时,应用程序主机无法在 .staging 目录下找到 job.jar。

在检查提交作业的用户的 .staging 目录后,我发现 job.jar 存在于 .staging// 目录下,但是 .staging 目录的权限设置为 700 (drwx------) 和因此应用程序主/tasktracker 无法访问 job.jar 和支持文件。

我们正在使用 LocalFileSystem 运行测试集群,因为我们在生产设置中仅使用 Hadoop 项目的 MapReduce 部分与 OCFS 配对。

在这方面的任何帮助都会非常有帮助。

0 投票
1 回答
1275 浏览

hadoop - 在 Hadoop 2 + YARN 中如何计算并发 #mappers 和 #reducers?

我已经搜索过一段时间,我发现使用 hadoop2 + yarn 的 MapReduce 集群具有以下数量的并发映射并减少每个节点:

并发映射 # = yarn.nodemanager.resource.memory-mb / mapreduce.map.memory.mb 并发减少 # = yarn.nodemanager.resource.memory-mb / mapreduce.reduce.memory.mb

但是,我已经建立了一个包含 10 台机器的集群,具有以下配置:

但是集群搭建好之后,hadoop允许整个集群有6个容器。我忘记了什么?我究竟做错了什么?

0 投票
0 回答
101 浏览

java - 关于 hadoop-env.sh 的问题

我面临错误:Java 堆空间和错误:超出 GC 开销限制

所以我开始研究 hadoop-env.sh。

所以这就是我到目前为止所理解的,如果我错了,请纠正我。

这将调用datanode上的datanode守护进程和tasktracker守护进程,每个分配7GB内存(datanode(7GB)+ tasktracker(7GB)= 14GB)

所以这将调用 9 个具有 1GB 内存的子 JVM,所以总共 9GB

但是 tasktracker 是用 7GB 内存调用的,所以这会发生冲突。因为 tasktracker 调用的 tasktracker 和子 JVMS 的最大内存为 7GB,但它们正在消耗 9G。

所以发生了堆空间错误,我的计算是否正确?

0 投票
0 回答
165 浏览

hadoop - Hadoop shutdown_msg

我在 Windows 7 上安装了 Hadoop,并将其配置为单节点。

运行 yarn.cmd 或 hdfs.cmd 时,我收到以下消息:

SHUTDOWN_MSG:在用户名/ip 处关闭 NodeManager

谢谢

0 投票
1 回答
39 浏览

hadoop - 控制中间体导致 hadoop

我想用 hadoop 控制 Map 和 Reduce 之间的中间结果。我想指定在 Map 之后将这些结果复制到哪里。我会选择会减少的数据。总之,我想要地图的结果,然后再进行洗牌和排序,然后做我想做的事。如果您有解决方案,请告诉我。

谢谢

0 投票
1 回答
561 浏览

hadoop - Hadoop 最新版本的二进制文件?

当我准备下载截至今天(06/27/2014)的最新稳定版hadoop时,我发现没有bin.tar.gz可用的。我看到以下内容。我不确定我应该下载哪一个。

首先,上面所有文件有什么区别。似乎src.tar.gz只是19M但是tar.gz is 104M。哪个更适合合作?以前我使用bin.tar.gzfor1.2.2如下。但这不适用于2.2.0版本。这是为什么?

对于 1.2.XI 使用bin.tar.gz

0 投票
1 回答
379 浏览

java - 使用 MapReduce 作业调用 StanfordCoreNLP API

我正在尝试使用 MapReduce 处理大量文档,其想法是将文件拆分为 mapper 中的文档,并在 reducer 阶段应用 stanford coreNLP 注释器。

我有一个相当简单(标准)的“tokenize,ssplit,pos,lemma,ner”管道,reducer 只是调用一个函数,将这些注释器应用于 reducer 传递的值并返回注释(作为字符串列表) ,但是生成的输出是垃圾。

我观察到,如果我从映射器中调用注释函数,该作业会返回预期的输出,但这优于整个并行性。当我忽略在 reducer 中获得的值并仅将注释器应用于虚拟字符串时,该作业也会返回预期的输出。

这可能表明该过程中存在一些线程安全问题,但我无法弄清楚我的注释函数在哪里同步并且管道是私有的最终。

有人可以提供一些关于如何解决这个问题的指示吗?

——昂舒

编辑:

这就是我的减速器的样子,希望这会增加更多的清晰度

这是获取提取的代码:

0 投票
1 回答
781 浏览

hadoop - On hadoop 2.2.0, My datanode could't start up

everyone, I have a little problem when I build the Hadoop Cluster
My node install CentOS 6.5,java1.7.60 and hadoop 2.2.0

I want to build a master and three slaves
I try to build it like this
But in the end of this, I try to start up my namenode and datanode

My /etc/hosts like this:

Just like this when I type:

and try to issue start-dfs.sh and start-yarn.sh:

and type jps:

I only look like this, didn't have DataNode, NodeManager, ResourceManger... etc, Is it any where wrong when I setting it? Could anyone can suggest me something, thanks!

0 投票
2 回答
6605 浏览

hadoop-yarn - 运行 mapreduce hadoop 作业时,纱线 UI 中未显示应用程序?

我正在使用Hadoop2.2. 我看到我的工作圆满完成。我可以浏览文件系统来查找输出。但是,当我浏览时http://NNode:8088/cluster/apps,我无法看到到目前为止已完成的任何应用程序(我运行了 3 个 wordcount 作业,但这里没有看到)。

是否有任何需要考虑的配置?

在此处输入图像描述

这里是yarn-site.xml

这里是mapred-site.xml

我也正在运行作业历史服务器: