问题标签 [cloudera]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2155 浏览

hadoop - 我可以在没有 root 访问权限的情况下使用 hadoop cloudera 吗?

有点二进制问题(好吧,不是特别) - 但想知道是否能够将 cloudera / hadoop 配置为在没有 root shell 访问节点计算机的节点上运行(尽管我可以设置 ssh 无密码登录)?

从他们的说明中显示需要root访问权限,但我发现一个hadoop wiki表明可能不需要root访问权限?http://wiki.apache.org/nutch/NutchHadoopTutorial

0 投票
1 回答
309 浏览

logging - 命令行水槽抛出错误

我想用flume从控制台收集日志,我用以下命令启动flume:

但它说:

10/09/22 13:59:21 INFO agent.FlumeNode:从命令行加载规范:'节点:控制台 | 代理BESink(“本地主机”,12345)'

22 年 10 月 9 日 13:59:21 WARN agent.FlumeNode:捕获异常加载节点:解析器错误:位置 -1 第 0 行的意外“null”:“节点:控制台 | 代理BESink(“本地主机”,12345)'

我错过了什么?我按照cloudera的howto。预计会起作用,不是吗?

0 投票
3 回答
6094 浏览

hadoop - 日志没有出现在控制台中 :( [Hadoop Question]

我正在尝试调试Cloudera Hadoop的 WordCount 示例,但我不能。我已经记录了映射器和减速器类,但在控制台中没有出现日志。

我附上图片。在第一张图片中,Java 日志。

在第二个图像中,结果记录。它没有出现第一个:( http://i56.tinypic.com/2eztkli.png

有谁知道??非常感谢!!

0 投票
2 回答
2457 浏览

hadoop - Hadoop 分布式缓存 (Cloudera CH3)

我正在尝试使用二进制可执行文件和缓存的存档运行一个简单的示例,但它似乎不起作用:

我正在尝试运行的示例有一个映射器,它生成三个随机双精度数和一个键,reducer 会将这三个数字平均在一起并记录平均值。很简单的东西。我在 c 中写了一个简单的 EXE 来生成随机数:

所以如果我打电话给 ./a.out [key]

我再看看吧

键,随机1,随机2,随机3

我正在使用 python 流,这是我用 python 编写的映射器:



这是只进行平均的减速器:



所以在阅读了文档之后,似乎我需要编译二进制文件和 tar.gz-it

1) 焦油 cvaf a.out.tar.gz a.out

现在我应该能够通过 -cacheArchive 参数将它传递给数据节点,并且一切都应该正常工作。这是我的 Hadoop 命令:

hadoop jar /usr/lib/hadoop-0.20/contrib/streaming/hadoop-streaming-0.20.2+737.jar \ -numReduceTasks 1 \ -mapper mapper1.py \ -file mapper1.py \ -reducer reducer1.py \ -文件 reducer1.py \ -file misc.py \ -cacheArchive a.out.tar.gz \ -input input/* \ -output testsvmoutput \ -verbose

不用说,这不起作用,似乎是因为映射器没有生成数据。

我通过在命令行上测试它来确认我的代码有效:

猫输入/svminput1.txt | python mapper1.py | 排序 | python reducer1.py

我很想有人解释为什么这不起作用,如何通过 cacheArchive 命令传递 exe 在数据节点上工作,和/或如何调试它,因为来自 Cloudera html 面板的错误消息没有那么有用。

谢谢

这是我看到的错误:

0 投票
1 回答
608 浏览

amazon-web-services - 使用 whirr 启动集群

我是 whirr 和 AWS 的新手,所以如果我问一些愚蠢的问题,请提前道歉。

我正在按照这里的指示设置whirr和

失败并显示以下内容:

我的 hadoop.properties 文件有一个 AWS 访问密钥和秘密访问密钥。

关于我可能做错了什么以及我需要做些什么来解决这个问题的任何指示?

谢谢!

0 投票
1 回答
806 浏览

eclipse-plugin - hadoop的eclipse插件是否与CDH3一起使用

我在我的机器上安装了 cloudera CDH3。然后我尝试使用 eclipse 插件(JIRA MAPREDUCE-1280)来做一些 MR 任务。但是,由于某种原因,该插件似乎不适用于 CDH3。它无法连接到 DFS。

有没有让插件工作?

0 投票
1 回答
976 浏览

hadoop - Flume 代理 - 我可以指定 gzip 或 bz2 之类的压缩吗?

是否可以在 Flume 代理上指定压缩选项,以便以压缩格式将数据传输到收集器?我知道收集器级别有压缩选项,但是能够从代理传输压缩数据也非常有用。

谢谢!

0 投票
2 回答
829 浏览

apache - Hadoop put 命令什么都不做!

我正在运行 Cloudera 的 Hadoop 发行版,一切正常。hdfs 包含大量 .seq 文件。我需要将所有 .seq 文件的内容合并到一个大 .seq 文件中。但是,getmerge 命令什么也没做对我来说。然后我使用 cat 并将一些 .seq 文件的数据通过管道传输到本地文件中。当我想将此文件“放入”hdfs 时,它什么也不做。没有显示错误消息,也没有创建文件。

我能够在 hdfs 中“touchz”文件,并且用户权限在这里不是问题。put 命令根本不起作用。我做错了什么?

0 投票
2 回答
3336 浏览

ruby - 为什么 MapReduce 基本程序的流式传输命令失败?

我试图运行一个 Ruby Hadoop 流程序,它在“Ruby 权威指南”中给出。

这是我使用的命令:

文件路径是正确的。运行命令后,我会收到如下错误:

我查看了地图日志文件,这是错误:

0 投票
1 回答
3895 浏览

hadoop - Hadoop:中间合并失败

我遇到了一个奇怪的问题。当我在大型数据集(>1TB 压缩文本文件)上运行 Hadoop 作业时,一些 reduce 任务失败,堆栈跟踪如下:

并非我所有的减速器都失败了。在我看到其他人失败之前,有几个人经常成功。如您所见,堆栈跟踪似乎总是源自IPAndIPCookieCount.readFields()并始终处于内存合并阶段,但并不总是来自readFields.

在运行较小的数据集(大约是大小的 1/30)时,此作业会成功。作业的输出几乎与输入一样多,但每个输出记录都较短。这项工作本质上是二次排序的实现。

我们正在使用 CDH3 Hadoop 发行版。

这是我的自定义WritableComparable实现:

readFields方法很简单,看不出这个类有什么问题。此外,我还看到其他人获得了基本相同的堆栈跟踪:

似乎没有人真正弄清楚这背后的问题。最后两个似乎表明这可能是一个内存问题(尽管这些堆栈跟踪不是OutOfMemoryExceptions)。就像该链接列表中的倒数第二个帖子一样,我尝试将减速器的数量设置得更高(最多 999 个),但仍然失败。我(还)没有尝试分配更多的内存来减少任务,因为这需要我们重新配置我们的集群。

这是 Hadoop 中的错误吗?还是我做错了什么?

编辑:我的数据按天分区。如果我运行该作业 7 次,每天一次,则所有 7 次都完成。如果我在所有 7 天内运行一项工作,它就会失败。整个 7 天的大型报告将看到与较小报告完全相同的键(总体上),但显然不是以相同的顺序,在相同的 reducer 等。