问题标签 [hadoop2]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Hadoop 的分布式缓存文件程序不生成任何输出
我们正在尝试设计一个简单的程序,其目标是从文件中读取专利数据,并检查其他国家是否引用了该专利,这是来自'Hadoop in Action'
我们'chuck Lam'
正在尝试了解的教科书advanced map/reduce programming
。
我们设置的hadoop发行版是Local Node
,我们正在执行程序Windows environment
,使用cygwin
。
这是我们下载文件的 URL http://www.nber.org/patents/
:apat63_99.txt
和cite75_99.txt
.
我们'apat63_99.txt'
用作分布式缓存文件,并且'cite75_99.txt'
在input
文件夹中,我们从命令行参数传递。
问题是程序没有生成输出,我们看到的输出文件中没有数据。
我们已经尝试过映射器阶段和减速器阶段的输出,两者都是空白的。
这是我们为此任务开发的代码:
该工具是Eclipse
,Hadoop's version
我们正在使用的是1.2.1
.
这些是运行作业的命令行参数:
这是程序执行时生成的跟踪:
请让我们知道我们哪里出错了,如果我错过了任何重要信息,请告诉我。
谢谢并恭祝安康
hadoop - Hadoop 作业在由 yarn (MRv2) 或 mapred (MRv1) 以外的用户提交时失败
我正在运行一个运行 MRv1 (CDH5) 与 LocalFileSystem 配对的测试集群,并且我唯一能够像 mapred 一样运行作业的用户(因为 mapred 是启动 jobtracker/tasktracker 守护程序的用户)。当以任何其他用户身份提交作业时,作业会失败,因为 jobtracker/tasktracker 无法在 .staging 目录下找到 job.jar。
当与 LocalFileSystem 配对时,我对 YARN (MRv2) 有完全相同的问题,即当由“yarn”以外的用户提交作业时,应用程序主机无法在 .staging 目录下找到 job.jar。
在检查提交作业的用户的 .staging 目录后,我发现 job.jar 存在于 .staging// 目录下,但是 .staging 目录的权限设置为 700 (drwx------) 和因此应用程序主/tasktracker 无法访问 job.jar 和支持文件。
我们正在使用 LocalFileSystem 运行测试集群,因为我们在生产设置中仅使用 Hadoop 项目的 MapReduce 部分与 OCFS 配对。
在这方面的任何帮助都会非常有帮助。
hadoop - 在 Hadoop 2 + YARN 中如何计算并发 #mappers 和 #reducers?
我已经搜索过一段时间,我发现使用 hadoop2 + yarn 的 MapReduce 集群具有以下数量的并发映射并减少每个节点:
并发映射 # = yarn.nodemanager.resource.memory-mb / mapreduce.map.memory.mb 并发减少 # = yarn.nodemanager.resource.memory-mb / mapreduce.reduce.memory.mb
但是,我已经建立了一个包含 10 台机器的集群,具有以下配置:
但是集群搭建好之后,hadoop允许整个集群有6个容器。我忘记了什么?我究竟做错了什么?
java - 关于 hadoop-env.sh 的问题
我面临错误:Java 堆空间和错误:超出 GC 开销限制
所以我开始研究 hadoop-env.sh。
所以这就是我到目前为止所理解的,如果我错了,请纠正我。
这将调用datanode上的datanode守护进程和tasktracker守护进程,每个分配7GB内存(datanode(7GB)+ tasktracker(7GB)= 14GB)
和
所以这将调用 9 个具有 1GB 内存的子 JVM,所以总共 9GB
但是 tasktracker 是用 7GB 内存调用的,所以这会发生冲突。因为 tasktracker 调用的 tasktracker 和子 JVMS 的最大内存为 7GB,但它们正在消耗 9G。
所以发生了堆空间错误,我的计算是否正确?
hadoop - Hadoop shutdown_msg
我在 Windows 7 上安装了 Hadoop,并将其配置为单节点。
运行 yarn.cmd 或 hdfs.cmd 时,我收到以下消息:
SHUTDOWN_MSG:在用户名/ip 处关闭 NodeManager
谢谢
hadoop - 控制中间体导致 hadoop
我想用 hadoop 控制 Map 和 Reduce 之间的中间结果。我想指定在 Map 之后将这些结果复制到哪里。我会选择会减少的数据。总之,我想要地图的结果,然后再进行洗牌和排序,然后做我想做的事。如果您有解决方案,请告诉我。
谢谢
hadoop - Hadoop 最新版本的二进制文件?
当我准备下载截至今天(06/27/2014)的最新稳定版hadoop时,我发现没有bin.tar.gz
可用的。我看到以下内容。我不确定我应该下载哪一个。
首先,上面所有文件有什么区别。似乎src.tar.gz
只是19M
但是tar.gz is 104M
。哪个更适合合作?以前我使用bin.tar.gz
for1.2.2
如下。但这不适用于2.2.0
版本。这是为什么?
对于 1.2.XI 使用bin.tar.gz
java - 使用 MapReduce 作业调用 StanfordCoreNLP API
我正在尝试使用 MapReduce 处理大量文档,其想法是将文件拆分为 mapper 中的文档,并在 reducer 阶段应用 stanford coreNLP 注释器。
我有一个相当简单(标准)的“tokenize,ssplit,pos,lemma,ner”管道,reducer 只是调用一个函数,将这些注释器应用于 reducer 传递的值并返回注释(作为字符串列表) ,但是生成的输出是垃圾。
我观察到,如果我从映射器中调用注释函数,该作业会返回预期的输出,但这优于整个并行性。当我忽略在 reducer 中获得的值并仅将注释器应用于虚拟字符串时,该作业也会返回预期的输出。
这可能表明该过程中存在一些线程安全问题,但我无法弄清楚我的注释函数在哪里同步并且管道是私有的最终。
有人可以提供一些关于如何解决这个问题的指示吗?
——昂舒
编辑:
这就是我的减速器的样子,希望这会增加更多的清晰度
这是获取提取的代码:
hadoop - On hadoop 2.2.0, My datanode could't start up
everyone, I have a little problem when I build the Hadoop Cluster
My node install CentOS 6.5,java1.7.60 and hadoop 2.2.0
I want to build a master and three slaves
I try to build it like this
But in the end of this, I try to start up my namenode and datanode
My /etc/hosts like this:
Just like this when I type:
and try to issue start-dfs.sh and start-yarn.sh:
and type jps:
I only look like this, didn't have DataNode, NodeManager, ResourceManger... etc, Is it any where wrong when I setting it? Could anyone can suggest me something, thanks!
hadoop-yarn - 运行 mapreduce hadoop 作业时,纱线 UI 中未显示应用程序?
我正在使用Hadoop2.2
. 我看到我的工作圆满完成。我可以浏览文件系统来查找输出。但是,当我浏览时http://NNode:8088/cluster/apps
,我无法看到到目前为止已完成的任何应用程序(我运行了 3 个 wordcount 作业,但这里没有看到)。
是否有任何需要考虑的配置?
这里是yarn-site.xml
这里是mapred-site.xml
:
我也正在运行作业历史服务器: