问题标签 [cloudera-cdh]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1204 浏览

java - 无论模式如何,都可以在 map reduce 中读取 avro 文件记录

我需要编写一个 map reduce 程序,它从整个 hdfs 文件中读取 avro 文件。我的映射器代码输入将是具有不同架构的不同 avro 文件。在我的代码的映射器部分中,无论文件模式如何,我都需要读取文件的整个记录​​。谁能告诉我如何实现从 avro 读取整条记录。

提前致谢。

0 投票
2 回答
4510 浏览

hadoop - Pig中的“RM中不存在”后端错误

我从http://www.cloudera.com/content/cloudera-content/cloudera-docs/DemoVMs/Cloudera-QuickStart-VM/cloudera_quickstart_vm.html下载的 Cloudera QuickStart VM 出现错误。

我正在尝试 Tom White 的Hadoop: The Definitive Guide book中的一个玩具示例map_temp.pig,它“按年查找最高温度”。

我创建了一个名为的文件temps.txt,每行包含(年份、温度、质量)条目:

1950 0 1

1950 22 1

1950 -11 1

1949 111 1

使用书中的示例代码,我在 Grunt 终端中输入了以下 Pig 代码:

输入后DUMP records;,我收到错误:

2014-05-22 11:33:34,286 [main] 错误 org.apache.pig.tools.grunt.Grunt - 错误 1066:无法打开别名记录的迭代器。后端错误:org.apache.hadoop.yarn.exceptions.ApplicationNotFoundException: 带有 id 'application_1400775973236_0006' 的应用程序在 RM 中不存在。

…</p>

日志文件中的详细信息:/home/cloudera/Desktop/pig_1400782722689.log

我试图通过谷歌搜索找出导致错误的原因:https://www.google.com/search?q=%22application+with+id%22+%22doesn%27t+exist+in+RM%22.

那里的结果没有帮助。例如,http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-troubleshoot-error-vpc.html提到了这个错误并说“要解决这个问题,您必须配置一个包含 DHCP 的 VPC选项集,其参数设置为以下值..."

亚马逊建议的修复似乎不是问题,因为我没有使用 AWS。

编辑:

我认为 HDFS 文件路径是正确的。

0 投票
1 回答
496 浏览

java - 如何在 Hadoop 集群中加载 native-hadoop 库?

我在 Cloudera Hadoop (CDH) 版本 4.6 中运行 Revolution R Enterprise 版本 7.0 以使用 MapReduce 服务生成决策树。

当我运行 Hadoop 集群计算上下文时,似乎未加载 native-hadoop 库。我加载了 RevoScaleR 包。

我已经查看了 Revolution Analitics 博客、pdf 手册和这个论坛,但我还没有找到解决方案。

我在 R 符号中编写了以下命令来检查 RevoScaleR,但未加载。

请给我一些建议好吗?

谢谢。

0 投票
1 回答
1864 浏览

hadoop - 色调工作很慢

我正在使用 CLoudera Hadoop 4.8,并且我有一个包含 4 个节点的集群。问题是:如果我使用 Hue 启动 Hive 查询,则需要 5 个小时才能完成。查询是:

此时 Nodes loadavg 为

但是,如果我从 hive 控制台开始相同的查询,它需要大约 30 分钟才能结束。而且loadavg更低!

为什么会发生?

系统:

0 投票
0 回答
1130 浏览

hadoop - NoSuchMethodError 在 Hadoop (2.3.0) 上使用 Guava 15

我有一个为 Hadoop 编译的 jar,包括这个库:

当我将它提交到我的 Hadoop CDH5.0.1 集群时,我遇到了这个错误:

最主要的是 Hadoop 在它的类路径中有一个旧版本的番石榴,在我之前加载它并崩溃,因为使用的函数不存在。

我尝试了诸如mapreduce.task.classpath.user.precedencemapreduce.task.classpath.firstmapreduce.job.user.classpath.first之类的配置参数,但它们都不起作用。

任何猜测解决这个问题?

0 投票
1 回答
293 浏览

google-bigquery - BigQuery 的浏览器界面可以贴上白标吗?

和大多数人一样,我们对 BigQuery 印象深刻。我们愿意忍受它基于专有的“Dremel”,以换取不必在我们的 LAN、EC2 或其他任何地方配置大量服务器。

REST API 非常出色,我们正在将其整合到我们的应用程序中,但我们仍然发现自己也在使用 BQ 浏览器界面。我们想在我们的应用程序中加入类似“通用 SQL 窗口”之类的东西,而不会透露后端是 BQ 或数据根本存储在 Google 中,就此而言。 Google 是否提供了一种以白标方式使用其 BQ 浏览器工具的方法

另请注意,即使扩展对现有浏览器工具的访问也是有问题的。它依赖于存在于自己域中的用户帐户——在我们的例子中,这是使用客户的电子邮件地址无法完成的。REST 接口使用服务级帐户解决了这个问题,但这并不能让您使用 SQL 窗口/浏览器工具。

如果谷歌的人在听(我知道你在听),考虑一下给浏览器工具贴上白标签的好处:我认为你会发现很多软件公司将它集成到他们的产品套件中,然后运行围绕任何 Hadoop/CDH/EMR/Impala/Hive 组合。

所以,总结一下:软件开发人员如何在他们自己的基于 Web 的应用程序中导入或模拟 BQ 浏览器工具(以及所有它的自动完成、查询历史记录等)?

0 投票
1 回答
46 浏览

eclipse - Mapreduce 的编程环境 - 无缝迭代开发

我是 MapReduce 的新手。我从简单的字数示例开始。

使用 Eclipse IDE,我创建了一个简单的 Java Maven 项目,添加了 MapReduce 依赖项,将我的程序编译为 Jar,将其复制到 Cloudera CDH VM,使用虚拟输入数据执行它。一旦我对它成功运行感到满意,我就将这个 Jar 放入我的 AWS EMR 环境中,并使用更大的(生产)数据集在那里运行它。

所以,Eclipse 是我的 IDE,Cloudera CDH VM 是我的开发环境,AWS EMR 是我的生产环境。

当我处理像字数这样的小项目时,这个设置工作得很好,但是我的 MapReduce 项目越大,在环境之间传输 Jar 文件就越麻烦。它使迭代开发非常乏味。

我想知道我的这个环境设置是否可以调整/改进/废弃和重建,以使其更适合迭代和大规模 MapReduce 开发项目。

任何帮助/提示表示赞赏。丹克申。

0 投票
0 回答
150 浏览

hadoop - 从 CDH 4.5 升级到 CDH 5

我一直在考虑升级到 CDH 5(从 CDH 4.5)为 Spark 做好准备。我担心我的 HDFS 中已经存在的数据。在 Cloudera 文档中,它说您必须备份hdfs-site.xmldfs.name dir中(或dfs.namenode.name.dir)指示的 HDFS 元数据。问题是:我的hdfs-site.xml中没有这样的条目

谁能告诉我如何在不损害 HDFS 中现有数据的情况下升级到 CDH 5?谢谢。

0 投票
1 回答
352 浏览

hadoop - 没有在 hive 或 impala 中加载表

我在 Centos 6.5 上使用 CDH5,当我浏览到查询编辑器 > Hive 或 Impala 时,左侧的表格部分与等待微调器一起坐在那里。有可用的表,因为我可以从 hive cli 查询它们,它从不加载表,有人能指出我正确的方向吗?

0 投票
1 回答
1705 浏览

hadoop - CDH5 上的启动/停止 hadoop hdfs/mapred 脚本在哪里

CDH4 的文档引用了/etc/init.d/hadoop-*脚本,但这些在 CDH5 中不再存在。

我已经涉足文档,但未能成功找到/理解 CDH5 等价物。我能找到的最接近的是 SCM 经理:

http://www.cloudera.com/content/cloudera-content/cloudera-docs/CM5/latest/Cloudera-Manager-Administration-Guide/cm5ag_agents.html

新进程的指针和解释将不胜感激。