问题标签 [hadoop2]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 在亚马逊云上安装 Hadoop
我是 Hadoop 新手,我喜欢进入 hadoop 管理行,所以研究了 hadoop 的基础知识,并尝试以伪分发模式安装 hadoop,并成功安装并运行了一些基本示例,现在我需要进一步改进,所以我需要尝试一种实时学习hadoop安装和配置的方法,所以决定去亚马逊微实例,谁能告诉如何在亚马逊云中安装和配置hadoop。提前致谢。
hadoop - 启动namenode而不格式化
我尝试使用 bin/start-all.sh 启动 namenode。但是,这个命令不会启动 namenode。我知道如果我执行 bin/hadoop namenode -format ,namenode 将启动,但在这种情况下,我将丢失所有数据。有没有办法在不格式化的情况下启动namenode?
hadoop - 在 Oozie 中可以实现这种类型的工作流程吗?
在 Oozie 中可以实现这种类型的工作流程吗?
或有关如何在 oozie 中执行此类操作的任何建议
请看附图
http://s7.postimg.org/yj30wb0mj/oozie_Workflow.jpg
Task3 一次只能由一个工作流运行,其他工作流需要等待。
Task3 是 ssh 操作,一次只有一个人需要访问该机器。
hadoop - hadoop 纱线资源管理
我有一个有 10 个节点的 Hadoop 集群。在 10 个节点中,其中 3 个部署了 HBase。有两个应用程序共享集群。应用程序 1 从 hadoop HDF 写入和读取数据。应用程序 2 将数据存储到 HBase。yarn 有没有办法确保应用程序 1 启动的 hadoop M/R 作业不使用 Hbase 节点上的插槽?我只希望应用程序 2 启动的 Hbase M/R 作业使用 HBase 节点。这需要确保有足够的资源可用于应用程序 2,以便 HBase 扫描非常快。
关于如何实现这一目标的任何建议?
hadoop - Hadoop:猪错误
我是 Hadoop 的绝对初学者,我只做一些简单的测试,但是,我没有发现错误消息非常有用。
我已经在 CentOS 6.4 VM 上以单节点模式设置了我的 Hadoop 环境,并提供了 4Gb 的 RAM。
我正在尝试在 500Mb CSV 文件上运行一个简单的 Pig 脚本。我有两个 500Mb 的文件,在第一个上,脚本是成功的。在第二个上,它的大小大致相同,但数据不同(更多行),当执行达到大约 60% 时,我得到一个错误。
这是我使用的(非常简单的)Pig 脚本:
这是我在终端中遇到的错误:
2014-04-06 10:28:29,147 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 完成 64% 2014-04-06 10:28:30,240 [main] WARN org.apache .pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 哎呀!有些工作失败了!如果您希望 Pig 在失败时立即停止,请指定 -stop_on_failure。2014-04-06 10:28:30,241 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 作业 job_1396637732046_0008 失败了!停止运行所有相关作业 2014-04-06 10:28:30,241 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 100% 完成 2014-04-06 10:28:30,460 [main] ] 错误 org.apache.pig.tools.pigstats.SimplePigStats - 错误 2997:无法从支持的错误重新创建异常:AttemptID:
2014-04-06 10:28:30,461 [main] 错误 org.apache.pig.tools.pigstats.PigStatsUtil - 1 个地图减少作业失败!2014-04-06 10:28:30,463 [main] INFO org.apache.pig.tools.pigstats.SimplePigStats - 脚本统计:
HadoopVersion PigVersion UserId StartedAt FinishedAt Features 2.0.6-alpha 0.11.1 root 2014-04-06 10:25:49 2014-04-06 10:28:30 GROUP_BY
失败的!
失败的作业:JobId 别名功能消息输出 job_1396637732046_0008 记录,tot_trans,transaction_recs GROUP_BY,COMBINER 消息:作业失败!/user/root/totaltransactions,
输入:无法从“hdfs://localhost:8020/user/root/trans2013.csv”读取数据
输出:无法在“/user/root/totaltransactions”中产生结果
计数器:写入的总记录数:0 写入的总字节数:0 Spillable Memory Manager 溢出计数:0 主动溢出的总包数:0 主动溢出的总记录数:0
工作 DAG:job_1396637732046_0008
2014-04-06 10:28:30,463 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 失败!2014-04-06 10:28:30,491 [main] 错误 org.apache.pig.tools.grunt.GruntParser - 错误 2997:无法从支持的错误中重新创建异常:尝试 ID:尝试_1396637732046_0008_m_000001_0 信息:容器被 ApplicationMaster 杀死。
日志文件中的详细信息:/root/pig_1396797945352.log
这是日志中的错误:
后端错误消息 --------- AttemptID:attempt_1396637732046_0008_m_000001_0 Info:Container 被 ApplicationMaster 杀死。
Pig Stack Trace --------------- ERROR 2997: Unable to recreate exception from backed error: AttemptID:attempt_1396637732046_0008_m_000001_0 Info:Container 被 ApplicationMaster 杀死。
org.apache.pig.backend.executionengine.ExecException:错误 2997:无法从支持的错误中重新创建异常:尝试 ID:尝试_1396637732046_0008_m_000001_0 信息:容器被 ApplicationMaster 杀死。
在 org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.Launcher.getErrorMessages(Launcher.java:217) 在 org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.Launcher.getStats(Launcher.java:149)在 org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher.launchPig(MapReduceLauncher.java:400) 在 org.apache.pig.PigServer.launchPlan(PigServer.java:1264) 在 org.apache.pig.PigServer .executeCompiledLogicalPlan(PigServer.java:1249) 在 org.apache.pig.PigServer.execute(PigServer.java:1239) 在 org.apache.pig.PigServer.executeBatch(PigServer.java:333) 在 org.apache.pig。 tools.grunt.GruntParser.executeBatch(GruntParser.java:137) 在 org.apache.pig.tools.grunt.GruntParser.parseStopOnError(GruntParser.java:198) 在 org.apache.pig.tools.grunt.GruntParser。parseStopOnError(GruntParser.java:170) 在 org.apache.pig.tools.grunt.Grunt.exec(Grunt.java:84) 在 org.apache.pig.Main.run(Main.java:604) 在 org.apache .pig.Main.main(Main.java:157) 在 sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) 在 sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57) 在 sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl .java:43) 在 java.lang.reflect.Method.invoke(Method.java:606) 在 org.apache.hadoop.util.RunJar.main(RunJar.java:212)invoke(NativeMethodAccessorImpl.java:57) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java:606) at org.apache.hadoop.util.RunJar .main(RunJar.java:212)invoke(NativeMethodAccessorImpl.java:57) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java:606) at org.apache.hadoop.util.RunJar .main(RunJar.java:212)
java - 当使用 Mahout 1.0-SNAPSHOT 和 Hadoop 2.2.0 时,seqdirectory 在 MapReduce 模式下抛出错误
我正在尝试使用 Hadoop 2.2.0 在 Mahout 1.0-SNAPSHOT 中运行 seqdirectory 命令。关于使用命令:
堆栈跟踪:
我认为这是 Mahout 0.9 中的一个问题,并已在后备箱中修复。任何线索如何处理这个?我想在 MapReduce 模式下运行它,所以 -xm 顺序不是我正在寻找的答案。
hadoop - 环形缓冲区和队列之间的区别
环形(循环)缓冲区和队列有什么区别?两者都支持 FIFO,所以在什么情况下我应该在队列上使用环形缓冲区,为什么?
与 Hadoop 的相关性
map 阶段使用环形缓冲区来存储中间键值对。选择队列的原因是什么?
hadoop - 无法在 hadoop 集群上运行作业。仅使用 LocalJobRunner 运行
我在 CDH5 Beta 2 上使用hadoop jar命令和以下命令提交了一个 MR 作业
我还尝试如下明确提供 fs 名称和作业跟踪器 url,但没有任何成功
作业成功运行,但使用LocalJobRunner而不是提交到集群。输出写入 HDFS 并且是正确的。不知道我在这里做错了什么,所以感谢您的意见。我也尝试过如下明确指定 fs 和作业跟踪器,但结果相同
驱动程序代码
hadoop - 减速器的输出发送到 HDFS,其中映射输出存储在数据节点本地磁盘中?
我对 HDFS 存储和数据节点存储有点困惑。以下是我的疑惑。
Map 函数输出将保存到数据节点本地磁盘,reducer 输出将发送到 HDFS。众所周知,数据块存储在数据节点本地磁盘中,数据节点中还有其他磁盘空间可用于HDFS吗?
reducer 输出文件(part-nnnnn-r-00001)的物理存储位置是什么?它会存储在名称节点硬盘中吗?
所以我的假设是数据节点是 HDFS 的一部分我假设数据节点本地磁盘也是 HDFS 的一部分。
问候苏雷什
hadoop - Hadoop 2.2.0 中的 MapReduce 不工作
Hadoop 2.2.0
在伪分布式模式下安装和配置我之后,一切都在运行,你可以在下面看到jps
:
然后我运行 wordcount 示例
执行冻结(?)如下:
有任何想法吗?