问题标签 [cloudera-cdh]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1574 浏览

hadoop - 作业在 Cloudera 5.1 下的 LocalJobRunner 中持续运行

需要一些快速帮助。我们的作业在 MapR 下运行良好,但是当我们在 Cloudera 5.1 上启动相同的作业时,它一直在本地模式下运行。

我确信这是某种配置问题。它是哪个配置设置?

谢谢。

0 投票
1 回答
1947 浏览

python - Hadoop 流式传输命令失败

我正在尝试将 Hadoop 流与 python 脚本一起使用,但不幸的是我收到以下错误:

我正在尝试运行以下命令:

当我查看工作设置时,我可以看到:

当我尝试使用命令在没有 hadoop 的情况下运行我的代码时,一切似乎都运行良好:

我也通读了这篇文章,我有#!/usr/bin/env python2.7 作为我的python文件的第一行。

有谁知道可能出了什么问题?提前感谢您的任何建议和答案。

0 投票
2 回答
560 浏览

hadoop - 在猪中计数并压扁

嗨,我有这样的数据:

{“user_id”:“kim95”,“type”:“Book”,“title”:“现代数据库系统:对象模型、互操作性和超越。”,“year”:“1995”,“publisher”:“ ACM Press and Addison-Wesley", "authors": [{"name":"null"}], "source": "DBLP"}

{“user_id”:“marshallo79”,“type”:“Book”,“title”:“不等式:大写理论及其应用。”,“year”:“1979”,“publisher”:“Academic Press”, “作者”:[{“name”:“Albert W. Marshall”},{“name”:“Ingram Olkin”}],“来源”:“DBLP”}

{“user_id”:“knuth86a”,“type”:“Book”,“title”:“TeX:The Program”,“year”:“1986”,“publisher”:“Addison-Wesley”,“authors”: [{"name":"Donald E. Knuth"}], "source": "DBLP"} ...

我想获得出版商,标题,然后对组应用计数,但我收到错误'a column need be...'这个脚本:

在第二个查询中,我希望有这样的结构 :(name,year),title

所以我尝试了这个:

但它也不起作用......

请问有什么想法吗?

0 投票
2 回答
1458 浏览

scala - 在 CDH5.1 中使用 Spark Shell 发出与 HBase 的连接

我目前有一个用于虚拟盒的 CDH 5.1 的新映像,并且在尝试使用 spark shell 连接到 HBase 时遇到了问题。这是斯卡拉代码:

这是错误:

0 投票
0 回答
67 浏览

apache-pig - PIG 不一致的记录计数

我正在运行一个简单的加载和计数功能,如下所示

my_src = LOAD '<>' using PigStorage('|') AS (

<< 方案定义>> );

my_count = FOREACH (GROUP my_src ALL) GENERATE COUNT(my_src); STORE my_count INTO 'file1';

我得到的答案是大约 2.79 亿行。

现在如果我运行 group my_grp = group my_src by (key1, key2, key3 , key4);

my_grp_cnt = FOREACH (GROUP my_grp ALL) 生成计数(my_grp);

STORE my_count INTO 'file2';

我得到的答案是大约 5.72 亿行。

我的期望是计数保持不变。我在这里缺少什么吗?

我在 CDH 5 上使用 PIG 0.12

0 投票
1 回答
984 浏览

hadoop - serdes jar 不起作用

我正在唱 cdh5 快速入门...我想运行这个脚本:

但我得到了这个错误:

处理语句时出错:FAILED:执行错误,从 org.apache.hadoop.hive.ql.exec.DDLTask 返回代码 1。无法初始化类 org.openx.data.jsonserde.objectinspector.JsonObjectInspectorFactory

但是按照我之前的问题(在 Cloudera 中使用 serde 加载 JSON 文件),我尝试构建这里提出的每个 serd:https ://github.com/rcongiu/Hive-JSON-Serde 但我总是有同样的错误

0 投票
2 回答
4642 浏览

solr - 如何从 Solr 集合中删除所有数据?

我想删除 Solr 集合中的所有索引数据,最好是通过其中一个节点本身的 shell 命令。我怎样才能做到这一点?

0 投票
1 回答
1617 浏览

apache-pig - 使用 HUE 的 CDH 5 中的 PIG 作业问题

我在 CDH 5.1 中使用 HUE3.6。我在阅读 Hive 表时遇到了猪的问题。我认为必须为 Hcatalog 进行一些配置。我使用 CM 安装方式安装了 cloudera。有人可以指出配置色调以与猪一起使用的文档。以下是错误堆栈:

0 投票
1 回答
458 浏览

hadoop - Lily Hbase Indexers 无故退出

我正在运行 Cloudera/Solr 集群,并尝试使用 hbase-solr (Lily) 索引器将 Hbase 的 NRT 索引到 Solr。批处理模式索引工作正常。

但是,在我开始以恒定流的方式加载数据后,Lily 索引器开始一个接一个地死掉。他们不会打印出跳出我的特定错误消息,但都以相同的方式结束:

Cloudera 管理器也没有提供任何有用的信息,只是说进程已经退出。Solr 索引中的一些记录确实得到了更新,这表明索引器至少在一段时间内正常工作。

我在 RHEL6.5 和 JDK7 上运行最新的 CDH 5.1。

0 投票
0 回答
266 浏览

hadoop - Oozie Java Action (oozie 版本 4.0.0-cdh5.1.0) - 容器启动异常

我正在尝试通过 YARN 上的 Oozie Java 操作执行 MapReduce 应用程序。当我尝试执行应用程序时,它在 Java 操作中失败并显示以下错误消息:

供参考

  1. 我们最近将 CDH 集群从 CDH 4.7 升级到了 CDH 5.1
  2. 我们最近将 Oozie 从 3.X 升级到 4.0.0
  3. 在升级到 Oozie 4.0.0 和 CDH 5.1 之前,相同的应用程序在 Oozie 中运行良好
  4. 当使用以下命令在命令行上运行时,MR 应用程序工作得非常好。但是,只有在运行 Oozie Java 操作时才会失败

hadoop jar <<-MyJar->> <<-JobDriver->> <<-inputDir->> <<-outputDir->>