问题标签 [cloudera-cdh]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
241 浏览

java - java.io.FileNotFoundException: http://[IP:8888]/oozie/versions

嗨,我正在关注以下链接 http://oozie.apache.org/docs/4.0.1/DG_JMSNotifications.html

片段

但是,根据上面给出的示例代码,当尝试查看获取 JMSConnectionInfo 的调试信息时,它说

它是 oozie-4.0.0-cdh5.1.0 的一些配置(我正在使用)。还有一个信息,我在 Eclipse 上使用单独的 jvm 运行上述代码,并且在其他机器上配置了 oozie。

我找到了链接http://archive.cloudera.com/cdh4/cdh/4/oozie/WebServicesAPI.html

在我的情况下 /versions 不受支持,所以这就是原因。但是我不确定如何让我的 oozieserver 支持 /versions。请帮忙

0 投票
1 回答
2459 浏览

hadoop - 了解 Hadoop 快照功能

我尝试了解 Hadoop 快照的机制(http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HdfsSnapshots.html)。不幸的是,官方网站 apache 上的信息量非常有限,所以在这里发布消息。

我在我的 Hadoop 集群上尝试了这个功能。在获取快照之前,我尝试使用hdfs dfsadmin -report实用程序:

我制作了 durectory 的快照/tmp并获取子目录:

令我惊讶的第一件事是快照的大小和拍摄此快照的时间。时间立刻,大小是一样的。让我感到惊讶的第二件事是 hdfs 实用程序的报告:

在此之后,我从 /tmp 目录中删除了一个子目录并运行恢复...该目录已恢复...但我不明白如何。有人可以描述更多细节吗?谢谢!

0 投票
1 回答
1647 浏览

hadoop - Mahout 随机森林示例,无法识别数据的命令行参数

命令:

生成错误:

这似乎不可能。我查看了源代码, -d 是必需的选项。


hadoop 版本

返回

文件 advert-train.csv 和 advert-info 都存在于我的默认 HDFS 目录 /users/cloudera

0 投票
2 回答
8564 浏览

hadoop - 在 Cloudera 中使用 serde 加载 JSON 文件

我正在尝试使用具有此包结构的 JSON 文件:

我尝试使用 serde 为 Hive 加载 JSON 数据。我遵循了我在这里看到的两种方式: //blog.cloudera.com/blog/2012/12/how-to-use-a-serde-in-apache-hive/

使用此代码:

我收到了这个错误:

我也试过这个版本: https ://github.com/rcongiu/Hive-JSON-Serde

这给出了一个不同的错误:

任何想法?

我还想知道有什么替代方法可以使用这样的 JSON 来查询“作者”中的“名称”字段。是猪还是蜂巢?

我已经将其转换为“tsv”文件。但是,由于我的作者列是一个元组,如果我从这个文件构建一个表,我不知道如何使用 Hive 对“名称”提出请求。我应该更改我的脚本以进行“tsv”转换还是保留它?或者有没有 Hive 或 Pig 的替代品?

0 投票
1 回答
2493 浏览

ldap - LDAP 与 Cloudera 色调集成

我已经在我的 ubuntu 12.04 中配置了 LDAP 服务器,安装在同一台服务器 Cloudera 核心 hadoop 服务中。在这里,我想将 cloudera hue 与 LDAP 服务器集成。

以下是我的 LDAP 用户

root@ip-10-81-160-152:/home/ubuntu# ldapsearch -x -b "dc=gmps,dc=com"

我使用 phpldapadmin 登录我的 LDAP 服务器,它工作正常..

我的登录 DN:cn=a​​dmin,dc=gmps,dc=com

我已在 Hue cloudera 中将此 ldap 服务器配置为

ldap_url : ldap://75.101.250.10

LDAP 用户名模式:“uid=admin,ou=admin,dc=greycampus,dc=com”

用户名属性:管理员

在此之后,我重新启动了 HUE,如果单击,我只是在那里登录了 HUE Web UI

色调 ---> 管理用户 ---> 同步 LDAP 用户和组 --> 同步

我没有从 LDAP 服务器获得任何用户 ..

如果我单击添加/同步 LDAP 用户 .. 然后输入用户名并确定 .. 我得到

与 LDAP 通信时出错

{'info': '无效的 DN', 'desc': '无效的 DN 语法'}

我不知道我在哪里做错了.. 我在哪里提供了我的 LDAP 密码仍然令人困惑.. 以及 Hue 如何在没有密码的情况下与 LDAP 通信.. 请任何人帮忙

0 投票
1 回答
253 浏览

jms - E1601:无法检索 JMS 连接信息 [JMSTopicService 未初始化。JMS 通知可能未启用]

嗨,我正在关注下面的链接。

http://oozie.apache.org/docs/4.0.0/AG_Install.html#Notifications_Configuration

我已经完成了上面链接中所说的 cdh 中的所有配置并重新启动了 oozie

现在对于消费者应用程序,我有用于测试目的的简单 java 主类

代码片段

在获取 JMSConnectionInfo 时,我遇到了以下异常

线程“主”E1601 中的异常:E1601:无法检索 JMS 连接信息 [JMSTopicService 未初始化。JMS 通知可能未启用] 在 org.apache.oozie.client.OozieClient$JMSInfo.call(OozieClient.java:757) 在 org.apache.oozieClient.handleError(OozieClient.java:508) 在 org.apache .oozie.client.OozieClient$JMSInfo.call(OozieClient.java:744) 在 org.apache.oozie.client.OozieClient$ClientCallable.call(OozieClient.java:479) 在 org.apache.oozie.client.OozieClient.getJMSConnectionInfo (OozieClient.java:800) 在 com.oozie.jms.OozieJMSClient.main(OozieJMSClient.java:25)

管理端点

该端点用于获取 Oozie 系统状态和配置信息。

它支持以下子资源:status、os-env、sys-props、configuration、instrumentation、systems、available-timezones。

请建议我。谢谢

0 投票
2 回答
520 浏览

hadoop - 配置 Sqoop2 TEXT_FILE 输出格式

我正在使用 Sqoop2 (Sqoop 1.99.3-cdh5.1.0) 从 postgresql 数据库中导入数据。该作业成功完成并在 HDFS 中创建文本文件。输出文件是带单引号的 CSV,我想将输出配置为不带引号的制表符分隔。

Sqoop2 的输出格式可以配置吗?

0 投票
0 回答
1043 浏览

r - FUN(X[[2L]], ...) 中的错误:抱歉,参数类型“NA”不明确或不受支持

我正在尝试使用以下 R 脚本在位于“hdfs://:/somnath/merged_train/part-m-00000”的 HDFS 数据文件上使用 RHadoop(rmr2、rhdfs 包)构建逻辑回归模型,然后使用测试模型位于“hdfs://:/somnath/merged_test/part-m-00000”的测试 HDFS 数据文件。

我们使用 CDH4 发行版,Yarn/MR2 与 Hadoop-0.20 支持的 MR1 并行运行。并使用 hadoop-0.20 mapreduce 和 hdfs 版本将以下 RHadoop 脚本作为 Sys.setenv 命令运行,如下所示。

但是,每当我运行脚本时,我都会遇到以下错误,几乎没有运气绕过它。如果有人指出这个错误的可能原因,我将不胜感激,这似乎是由于 R 中 lapply 调用的错误方式而不处理 NA 参数。

下面是我的 R 脚本:

注意:我在 root ~/.bash_profile 中为 HADOOP 设置了以下环境变量,如下所示

样本训练数据集

样本测试数据集

0 投票
1 回答
3371 浏览

hadoop - Flume Avro Sink Source 使用 cloudera 快速入门

是否可以在 Cloudera-Quickstart-CDH-VM 中使用 Avro Sink/Source 设置 Flume Client-Collector-Structure?我知道没有实际用途,但是我想了解 Flume 如何与 Avro 文件一起使用,以及我以后如何将它们与 PIG 等一起使用。

它尝试了几种配置,但都没有奏效。对我来说,我似乎需要几个代理,但是虚拟机中只能有一个。

我最后尝试的:

感谢您的任何建议!

0 投票
1 回答
1858 浏览

hadoop - 更改 CDH5 Kerberos 身份验证后,我无法访问 hdfs

我正在尝试实现 Kerberos 身份验证。我在cdh5.0.1上使用Hadoop 2.3版本的 hadoop 。我做了以下更改:

  • 向core-site.xml添加了以下属性

    在我发出 hadoop fs -ls / 命令时重新启动守护程序后,我收到以下错误:

    ls:本地异常失败:java.io.IOException:服务器要求我们回退到简单身份验证,但此客户端配置为仅允许安全连接。主机详情:本地主机为:“cldx-xxxx-xxxx/xxx.xx.xx.xx”;目的主机是:“cldx-xxxx-xxxx”:8020;

请帮帮我。

提前致谢, Ankita Singla