“hadoop2”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

82 浏览

hadoop - 在亚马逊云上安装 Hadoop

我是 Hadoop 新手，我喜欢进入 hadoop 管理行，所以研究了 hadoop 的基础知识，并尝试以伪分发模式安装 hadoop，并成功安装并运行了一些基本示例，现在我需要进一步改进，所以我需要尝试一种实时学习hadoop安装和配置的方法，所以决定去亚马逊微实例，谁能告诉如何在亚马逊云中安装和配置hadoop。提前致谢。

hadoop hadoop2

2014-03-28T08:58:03.777

0 投票

2 回答

1164 浏览

hadoop - 启动namenode而不格式化

我尝试使用 bin/start-all.sh 启动 namenode。但是，这个命令不会启动 namenode。我知道如果我执行 bin/hadoop namenode -format ，namenode 将启动，但在这种情况下，我将丢失所有数据。有没有办法在不格式化的情况下启动namenode？

2014-04-01T11:06:20.193

0 投票

2 回答

74 浏览

hadoop - 在 Oozie 中可以实现这种类型的工作流程吗？

在 Oozie 中可以实现这种类型的工作流程吗？

或有关如何在 oozie 中执行此类操作的任何建议

请看附图

http://s7.postimg.org/yj30wb0mj/oozie_Workflow.jpg

Task3 一次只能由一个工作流运行，其他工作流需要等待。

Task3 是 ssh 操作，一次只有一个人需要访问该机器。

hadoop mapreduce oozie hadoop2 oozie-coordinator

2014-04-03T20:05:36.030

0 投票

1 回答

278 浏览

我有一个有 10 个节点的 Hadoop 集群。在 10 个节点中，其中 3 个部署了 HBase。有两个应用程序共享集群。应用程序 1 从 hadoop HDF 写入和读取数据。应用程序 2 将数据存储到 HBase。yarn 有没有办法确保应用程序 1 启动的 hadoop M/R 作业不使用 Hbase 节点上的插槽？我只希望应用程序 2 启动的 Hbase M/R 作业使用 HBase 节点。这需要确保有足够的资源可用于应用程序 2，以便 HBase 扫描非常快。

关于如何实现这一目标的任何建议？

hadoop hadoop-yarn hadoop2

2014-04-05T06:16:51.937

0 投票

1 回答

7055 浏览

hadoop - Hadoop：猪错误

我是 Hadoop 的绝对初学者，我只做一些简单的测试，但是，我没有发现错误消息非常有用。

我已经在 CentOS 6.4 VM 上以单节点模式设置了我的 Hadoop 环境，并提供了 4Gb 的 RAM。

我正在尝试在 500Mb CSV 文件上运行一个简单的 Pig 脚本。我有两个 500Mb 的文件，在第一个上，脚本是成功的。在第二个上，它的大小大致相同，但数据不同（更多行），当执行达到大约 60% 时，我得到一个错误。

这是我使用的（非常简单的）Pig 脚本：

这是我在终端中遇到的错误：

2014-04-06 10:28:29,147 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 完成 64% 2014-04-06 10:28:30,240 [main] WARN org.apache .pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 哎呀！有些工作失败了！如果您希望 Pig 在失败时立即停止，请指定 -stop_on_failure。2014-04-06 10:28:30,241 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 作业 job_1396637732046_0008 失败了！停止运行所有相关作业 2014-04-06 10:28:30,241 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 100% 完成 2014-04-06 10:28:30,460 [main] ] 错误 org.apache.pig.tools.pigstats.SimplePigStats - 错误 2997：无法从支持的错误重新创建异常：AttemptID：

2014-04-06 10:28:30,461 [main] 错误 org.apache.pig.tools.pigstats.PigStatsUtil - 1 个地图减少作业失败！2014-04-06 10:28:30,463 [main] INFO org.apache.pig.tools.pigstats.SimplePigStats - 脚本统计：

HadoopVersion PigVersion UserId StartedAt FinishedAt Features 2.0.6-alpha 0.11.1 root 2014-04-06 10:25:49 2014-04-06 10:28:30 GROUP_BY

失败的！

失败的作业：JobId 别名功能消息输出 job_1396637732046_0008 记录，tot_trans，transaction_recs GROUP_BY，COMBINER 消息：作业失败！/user/root/totaltransactions,

输入：无法从“hdfs://localhost:8020/user/root/trans2013.csv”读取数据

输出：无法在“/user/root/totaltransactions”中产生结果

计数器：写入的总记录数：0 写入的总字节数：0 Spillable Memory Manager 溢出计数：0 主动溢出的总包数：0 主动溢出的总记录数：0

工作 DAG：job_1396637732046_0008

2014-04-06 10:28:30,463 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 失败！2014-04-06 10:28:30,491 [main] 错误 org.apache.pig.tools.grunt.GruntParser - 错误 2997：无法从支持的错误中重新创建异常：尝试 ID：尝试_1396637732046_0008_m_000001_0 信息：容器被 ApplicationMaster 杀死。

日志文件中的详细信息：/root/pig_1396797945352.log

这是日志中的错误：

后端错误消息 --------- AttemptID:attempt_1396637732046_0008_m_000001_0 Info:Container 被 ApplicationMaster 杀死。

Pig Stack Trace --------------- ERROR 2997: Unable to recreate exception from backed error: AttemptID:attempt_1396637732046_0008_m_000001_0 Info:Container 被 ApplicationMaster 杀死。

org.apache.pig.backend.executionengine.ExecException：错误 2997：无法从支持的错误中重新创建异常：尝试 ID：尝试_1396637732046_0008_m_000001_0 信息：容器被 ApplicationMaster 杀死。

在 org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.Launcher.getErrorMessages(Launcher.java:217) 在 org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.Launcher.getStats(Launcher.java:149)在 org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher.launchPig(MapReduceLauncher.java:400) 在 org.apache.pig.PigServer.launchPlan(PigServer.java:1264) 在 org.apache.pig.PigServer .executeCompiledLogicalPlan(PigServer.java:1249) 在 org.apache.pig.PigServer.execute(PigServer.java:1239) 在 org.apache.pig.PigServer.executeBatch(PigServer.java:333) 在 org.apache.pig。 tools.grunt.GruntParser.executeBatch(GruntParser.java:137) 在 org.apache.pig.tools.grunt.GruntParser.parseStopOnError(GruntParser.java:198) 在 org.apache.pig.tools.grunt.GruntParser。parseStopOnError(GruntParser.java:170) 在 org.apache.pig.tools.grunt.Grunt.exec(Grunt.java:84) 在 org.apache.pig.Main.run(Main.java:604) 在 org.apache .pig.Main.main(Main.java:157) 在 sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) 在 sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57) 在 sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl .java:43) 在 java.lang.reflect.Method.invoke(Method.java:606) 在 org.apache.hadoop.util.RunJar.main(RunJar.java:212)invoke(NativeMethodAccessorImpl.java:57) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java:606) at org.apache.hadoop.util.RunJar .main(RunJar.java:212)invoke(NativeMethodAccessorImpl.java:57) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java:606) at org.apache.hadoop.util.RunJar .main(RunJar.java:212)

hadoop apache-pig hadoop2

2014-04-06T15:45:57.057

0 投票

1 回答

642 浏览

java - 当使用 Mahout 1.0-SNAPSHOT 和 Hadoop 2.2.0 时，seqdirectory 在 MapReduce 模式下抛出错误

我正在尝试使用 Hadoop 2.2.0 在 Mahout 1.0-SNAPSHOT 中运行 seqdirectory 命令。关于使用命令：

堆栈跟踪：

我认为这是 Mahout 0.9 中的一个问题，并已在后备箱中修复。任何线索如何处理这个？我想在 MapReduce 模式下运行它，所以 -xm 顺序不是我正在寻找的答案。

java machine-learning mahout hadoop-yarn hadoop2

2014-04-12T23:35:10.060

0 投票

4 回答

14930 浏览

hadoop - 环形缓冲区和队列之间的区别

环形（循环）缓冲区和队列有什么区别？两者都支持 FIFO，所以在什么情况下我应该在队列上使用环形缓冲区，为什么？

与 Hadoop 的相关性

map 阶段使用环形缓冲区来存储中间键值对。选择队列的原因是什么？

hadoop data-structures hadoop2

2014-04-16T13:53:06.643

0 投票

2 回答

5142 浏览

hadoop - 无法在 hadoop 集群上运行作业。仅使用 LocalJobRunner 运行

我在 CDH5 Beta 2 上使用hadoop jar命令和以下命令提交了一个 MR 作业

我还尝试如下明确提供 fs 名称和作业跟踪器 url，但没有任何成功

作业成功运行，但使用LocalJobRunner而不是提交到集群。输出写入 HDFS 并且是正确的。不知道我在这里做错了什么，所以感谢您的意见。我也尝试过如下明确指定 fs 和作业跟踪器，但结果相同

驱动程序代码

hadoop cloudera hadoop-yarn hadoop2 cloudera-cdh

2014-04-17T00:51:32.633

0 投票

2 回答

3115 浏览

hadoop - 减速器的输出发送到 HDFS，其中映射输出存储在数据节点本地磁盘中？

我对 HDFS 存储和数据节点存储有点困惑。以下是我的疑惑。

Map 函数输出将保存到数据节点本地磁盘，reducer 输出将发送到 HDFS。众所周知，数据块存储在数据节点本地磁盘中，数据节点中还有其他磁盘空间可用于HDFS吗？
reducer 输出文件（part-nnnnn-r-00001）的物理存储位置是什么？它会存储在名称节点硬盘中吗？

所以我的假设是数据节点是 HDFS 的一部分我假设数据节点本地磁盘也是 HDFS 的一部分。

问候苏雷什

hadoop hadoop-streaming hadoop-partitioning hadoop2

2014-04-22T11:32:20.553

0 投票

2 回答

6039 浏览

hadoop - Hadoop 2.2.0 中的 MapReduce 不工作

Hadoop 2.2.0在伪分布式模式下安装和配置我之后，一切都在运行，你可以在下面看到jps：

然后我运行 wordcount 示例

执行冻结（？）如下：

有任何想法吗？

hadoop mapreduce hadoop2

2014-04-22T22:27:26.213

问题标签 [hadoop2]

hadoop - 在亚马逊云上安装 Hadoop

hadoop - 启动namenode而不格式化

hadoop - 在 Oozie 中可以实现这种类型的工作流程吗？

hadoop - hadoop 纱线资源管理

hadoop - Hadoop：猪错误

java - 当使用 Mahout 1.0-SNAPSHOT 和 Hadoop 2.2.0 时，seqdirectory 在 MapReduce 模式下抛出错误

hadoop - 环形缓冲区和队列之间的区别

hadoop - 无法在 hadoop 集群上运行作业。仅使用 LocalJobRunner 运行

hadoop - 减速器的输出发送到 HDFS，其中映射输出存储在数据节点本地磁盘中？

hadoop - Hadoop 2.2.0 中的 MapReduce 不工作

问题标签 [hadoop2]

Reference