问题标签 [cloudera-cdh]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 作业在 Cloudera 5.1 下的 LocalJobRunner 中持续运行
需要一些快速帮助。我们的作业在 MapR 下运行良好,但是当我们在 Cloudera 5.1 上启动相同的作业时,它一直在本地模式下运行。
我确信这是某种配置问题。它是哪个配置设置?
谢谢。
python - Hadoop 流式传输命令失败
我正在尝试将 Hadoop 流与 python 脚本一起使用,但不幸的是我收到以下错误:
我正在尝试运行以下命令:
当我查看工作设置时,我可以看到:
当我尝试使用命令在没有 hadoop 的情况下运行我的代码时,一切似乎都运行良好:
我也通读了这篇文章,我有#!/usr/bin/env python2.7 作为我的python文件的第一行。
有谁知道可能出了什么问题?提前感谢您的任何建议和答案。
hadoop - 在猪中计数并压扁
嗨,我有这样的数据:
{“user_id”:“kim95”,“type”:“Book”,“title”:“现代数据库系统:对象模型、互操作性和超越。”,“year”:“1995”,“publisher”:“ ACM Press and Addison-Wesley", "authors": [{"name":"null"}], "source": "DBLP"}
{“user_id”:“marshallo79”,“type”:“Book”,“title”:“不等式:大写理论及其应用。”,“year”:“1979”,“publisher”:“Academic Press”, “作者”:[{“name”:“Albert W. Marshall”},{“name”:“Ingram Olkin”}],“来源”:“DBLP”}
{“user_id”:“knuth86a”,“type”:“Book”,“title”:“TeX:The Program”,“year”:“1986”,“publisher”:“Addison-Wesley”,“authors”: [{"name":"Donald E. Knuth"}], "source": "DBLP"} ...
我想获得出版商,标题,然后对组应用计数,但我收到错误'a column need be...'这个脚本:
在第二个查询中,我希望有这样的结构 :(name,year),title
所以我尝试了这个:
但它也不起作用......
请问有什么想法吗?
scala - 在 CDH5.1 中使用 Spark Shell 发出与 HBase 的连接
我目前有一个用于虚拟盒的 CDH 5.1 的新映像,并且在尝试使用 spark shell 连接到 HBase 时遇到了问题。这是斯卡拉代码:
这是错误:
apache-pig - PIG 不一致的记录计数
我正在运行一个简单的加载和计数功能,如下所示
my_src = LOAD '<>' using PigStorage('|') AS (
<< 方案定义>> );
my_count = FOREACH (GROUP my_src ALL) GENERATE COUNT(my_src); STORE my_count INTO 'file1';
我得到的答案是大约 2.79 亿行。
现在如果我运行 group my_grp = group my_src by (key1, key2, key3 , key4);
my_grp_cnt = FOREACH (GROUP my_grp ALL) 生成计数(my_grp);
STORE my_count INTO 'file2';
我得到的答案是大约 5.72 亿行。
我的期望是计数保持不变。我在这里缺少什么吗?
我在 CDH 5 上使用 PIG 0.12
hadoop - serdes jar 不起作用
我正在唱 cdh5 快速入门...我想运行这个脚本:
但我得到了这个错误:
处理语句时出错:FAILED:执行错误,从 org.apache.hadoop.hive.ql.exec.DDLTask 返回代码 1。无法初始化类 org.openx.data.jsonserde.objectinspector.JsonObjectInspectorFactory
但是按照我之前的问题(在 Cloudera 中使用 serde 加载 JSON 文件),我尝试构建这里提出的每个 serd:https ://github.com/rcongiu/Hive-JSON-Serde 但我总是有同样的错误
solr - 如何从 Solr 集合中删除所有数据?
我想删除 Solr 集合中的所有索引数据,最好是通过其中一个节点本身的 shell 命令。我怎样才能做到这一点?
apache-pig - 使用 HUE 的 CDH 5 中的 PIG 作业问题
我在 CDH 5.1 中使用 HUE3.6。我在阅读 Hive 表时遇到了猪的问题。我认为必须为 Hcatalog 进行一些配置。我使用 CM 安装方式安装了 cloudera。有人可以指出配置色调以与猪一起使用的文档。以下是错误堆栈:
hadoop - Lily Hbase Indexers 无故退出
我正在运行 Cloudera/Solr 集群,并尝试使用 hbase-solr (Lily) 索引器将 Hbase 的 NRT 索引到 Solr。批处理模式索引工作正常。
但是,在我开始以恒定流的方式加载数据后,Lily 索引器开始一个接一个地死掉。他们不会打印出跳出我的特定错误消息,但都以相同的方式结束:
Cloudera 管理器也没有提供任何有用的信息,只是说进程已经退出。Solr 索引中的一些记录确实得到了更新,这表明索引器至少在一段时间内正常工作。
我在 RHEL6.5 和 JDK7 上运行最新的 CDH 5.1。
hadoop - Oozie Java Action (oozie 版本 4.0.0-cdh5.1.0) - 容器启动异常
我正在尝试通过 YARN 上的 Oozie Java 操作执行 MapReduce 应用程序。当我尝试执行应用程序时,它在 Java 操作中失败并显示以下错误消息:
供参考
- 我们最近将 CDH 集群从 CDH 4.7 升级到了 CDH 5.1
- 我们最近将 Oozie 从 3.X 升级到 4.0.0
- 在升级到 Oozie 4.0.0 和 CDH 5.1 之前,相同的应用程序在 Oozie 中运行良好
- 当使用以下命令在命令行上运行时,MR 应用程序工作得非常好。但是,只有在运行 Oozie Java 操作时才会失败
hadoop jar <<-MyJar->> <<-JobDriver->> <<-inputDir->> <<-outputDir->>