“hadoop2”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

434 浏览

java - Hadoop 的分布式缓存文件程序不生成任何输出

我们正在尝试设计一个简单的程序，其目标是从文件中读取专利数据，并检查其他国家是否引用了该专利，这是来自'Hadoop in Action'我们'chuck Lam'正在尝试了解的教科书advanced map/reduce programming。

我们设置的hadoop发行版是Local Node，我们正在执行程序Windows environment，使用cygwin。

这是我们下载文件的 URL http://www.nber.org/patents/:apat63_99.txt和cite75_99.txt.

我们'apat63_99.txt'用作分布式缓存文件，并且'cite75_99.txt'在input文件夹中，我们从命令行参数传递。

问题是程序没有生成输出，我们看到的输出文件中没有数据。

我们已经尝试过映射器阶段和减速器阶段的输出，两者都是空白的。

这是我们为此任务开发的代码：

该工具是Eclipse，Hadoop's version我们正在使用的是1.2.1.

这些是运行作业的命令行参数：

这是程序执行时生成的跟踪：

请让我们知道我们哪里出错了，如果我错过了任何重要信息，请告诉我。

谢谢并恭祝安康

2014-06-22T07:27:37.680

0 投票

2 回答

5656 浏览

hadoop - Hadoop 作业在由 yarn (MRv2) 或 mapred (MRv1) 以外的用户提交时失败

我正在运行一个运行 MRv1 (CDH5) 与 LocalFileSystem 配对的测试集群，并且我唯一能够像 mapred 一样运行作业的用户（因为 mapred 是启动 jobtracker/tasktracker 守护程序的用户）。当以任何其他用户身份提交作业时，作业会失败，因为 jobtracker/tasktracker 无法在 .staging 目录下找到 job.jar。

当与 LocalFileSystem 配对时，我对 YARN (MRv2) 有完全相同的问题，即当由“yarn”以外的用户提交作业时，应用程序主机无法在 .staging 目录下找到 job.jar。

在检查提交作业的用户的 .staging 目录后，我发现 job.jar 存在于 .staging// 目录下，但是 .staging 目录的权限设置为 700 (drwx------) 和因此应用程序主/tasktracker 无法访问 job.jar 和支持文件。

我们正在使用 LocalFileSystem 运行测试集群，因为我们在生产设置中仅使用 Hadoop 项目的 MapReduce 部分与 OCFS 配对。

在这方面的任何帮助都会非常有帮助。

hadoop hadoop2

2014-06-24T15:10:12.457

0 投票

1 回答

1275 浏览

hadoop - 在 Hadoop 2 + YARN 中如何计算并发 #mappers 和 #reducers？

我已经搜索过一段时间，我发现使用 hadoop2 + yarn 的 MapReduce 集群具有以下数量的并发映射并减少每个节点：

并发映射 # = yarn.nodemanager.resource.memory-mb / mapreduce.map.memory.mb 并发减少 # = yarn.nodemanager.resource.memory-mb / mapreduce.reduce.memory.mb

但是，我已经建立了一个包含 10 台机器的集群，具有以下配置：

但是集群搭建好之后，hadoop允许整个集群有6个容器。我忘记了什么？我究竟做错了什么？

hadoop hadoop-yarn hadoop2

2014-06-25T17:12:21.830

0 投票

0 回答

101 浏览

java - 关于 hadoop-env.sh 的问题

我面临错误：Java 堆空间和错误：超出 GC 开销限制

所以我开始研究 hadoop-env.sh。

所以这就是我到目前为止所理解的，如果我错了，请纠正我。

这将调用datanode上的datanode守护进程和tasktracker守护进程，每个分配7GB内存（datanode（7GB）+ tasktracker（7GB）= 14GB）

和

所以这将调用 9 个具有 1GB 内存的子 JVM，所以总共 9GB

但是 tasktracker 是用 7GB 内存调用的，所以这会发生冲突。因为 tasktracker 调用的 tasktracker 和子 JVMS 的最大内存为 7GB，但它们正在消耗 9G。

所以发生了堆空间错误，我的计算是否正确？

java hadoop hadoop-streaming hadoop-partitioning hadoop2

2014-06-27T05:31:02.047

0 投票

0 回答

165 浏览

hadoop - Hadoop shutdown_msg

我在 Windows 7 上安装了 Hadoop，并将其配置为单节点。

运行 yarn.cmd 或 hdfs.cmd 时，我收到以下消息：

SHUTDOWN_MSG：在用户名/ip 处关闭 NodeManager

谢谢

hadoop hadoop2

2014-06-27T09:47:02.280

0 投票

1 回答

39 浏览

hadoop - 控制中间体导致 hadoop

我想用 hadoop 控制 Map 和 Reduce 之间的中间结果。我想指定在 Map 之后将这些结果复制到哪里。我会选择会减少的数据。总之，我想要地图的结果，然后再进行洗牌和排序，然后做我想做的事。如果您有解决方案，请告诉我。

谢谢

hadoop mapreduce hadoop-streaming hadoop-partitioning hadoop2

2014-06-27T12:21:38.793

0 投票

1 回答

561 浏览

hadoop - Hadoop 最新版本的二进制文件？

当我准备下载截至今天（06/27/2014）的最新稳定版hadoop时，我发现没有bin.tar.gz可用的。我看到以下内容。我不确定我应该下载哪一个。

首先，上面所有文件有什么区别。似乎src.tar.gz只是19M但是tar.gz is 104M。哪个更适合合作？以前我使用bin.tar.gzfor1.2.2如下。但这不适用于2.2.0版本。这是为什么？

对于 1.2.XI 使用bin.tar.gz

hadoop hadoop2

2014-06-27T19:41:09.550

0 投票

1 回答

379 浏览

java - 使用 MapReduce 作业调用 StanfordCoreNLP API

我正在尝试使用 MapReduce 处理大量文档，其想法是将文件拆分为 mapper 中的文档，并在 reducer 阶段应用 stanford coreNLP 注释器。

我有一个相当简单（标准）的“tokenize，ssplit，pos，lemma，ner”管道，reducer 只是调用一个函数，将这些注释器应用于 reducer 传递的值并返回注释（作为字符串列表），但是生成的输出是垃圾。

我观察到，如果我从映射器中调用注释函数，该作业会返回预期的输出，但这优于整个并行性。当我忽略在 reducer 中获得的值并仅将注释器应用于虚拟字符串时，该作业也会返回预期的输出。

这可能表明该过程中存在一些线程安全问题，但我无法弄清楚我的注释函数在哪里同步并且管道是私有的最终。

有人可以提供一些关于如何解决这个问题的指示吗？

——昂舒

编辑：

这就是我的减速器的样子，希望这会增加更多的清晰度

这是获取提取的代码：

java mapreduce nlp stanford-nlp hadoop2

2014-06-28T14:51:25.117

0 投票

1 回答

781 浏览

hadoop - On hadoop 2.2.0, My datanode could't start up

everyone, I have a little problem when I build the Hadoop Cluster
My node install CentOS 6.5,java1.7.60 and hadoop 2.2.0

I want to build a master and three slaves
I try to build it like this
But in the end of this, I try to start up my namenode and datanode

My /etc/hosts like this:

Just like this when I type:

and try to issue start-dfs.sh and start-yarn.sh:

and type jps:

I only look like this, didn't have DataNode, NodeManager, ResourceManger... etc, Is it any where wrong when I setting it? Could anyone can suggest me something, thanks!

hadoop centos6 hadoop2

2014-07-01T09:03:05.023

0 投票

2 回答

6605 浏览

hadoop-yarn - 运行 mapreduce hadoop 作业时，纱线 UI 中未显示应用程序？

我正在使用Hadoop2.2. 我看到我的工作圆满完成。我可以浏览文件系统来查找输出。但是，当我浏览时http://NNode:8088/cluster/apps，我无法看到到目前为止已完成的任何应用程序（我运行了 3 个 wordcount 作业，但这里没有看到）。

是否有任何需要考虑的配置？

在此处输入图像描述

这里是yarn-site.xml

这里是mapred-site.xml：

我也正在运行作业历史服务器：

hadoop-yarn hadoop2

2014-07-01T20:01:42.857

问题标签 [hadoop2]

Reference