问题标签 [cloudera-quickstart-vm]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
8137 浏览

apache-spark - 如何检查 cloudera-quickstart-vm 上 Spark(独立)服务的状态?

我正在尝试获取服务的状态,即在我的本地 vm 上运行的 Spark(独立)服务上运行的 spark-master 和 spark-slaves

但是运行sudo service spark-master status不起作用。

任何人都可以提供一些关于如何检查 Spark 服务状态的提示吗?

0 投票
1 回答
39508 浏览

hadoop - 尝试使用不支持这些操作的事务管理器进行更新或删除

尝试在 Cloudera Quickstart VM 中更新 Hive 表中的数据时,出现此错误。

编译语句时出错:失败:SemanticException [错误 10294]:尝试使用不支持这些操作的事务管理器进行更新或删除。

我在 hive-site.xml 文件中添加了一些更改,并重新启动了 hive 和 cloudera。这些是我在 Hive-site.xml 中所做的更改

0 投票
6 回答
7265 浏览

hadoop - 在 Cloudera Docker 快速入门上访问 Hue

我已经根据此处给出的说明使用 docker 安装了 cloudera 快速入门。

https://blog.cloudera.com/blog/2015/12/docker-is-the-new-quickstart-option-for-apache-hadoop-and-cloudera/

你可以看到我在做-p 7180-p 8888做端口映射。

当容器成功启动时。我看到hue服务启动失败了。但我使用手动运行它sudo service hue restart,它显示正常。

现在我跑了

此命令成功我收到一条使用http://cloudera.quickstart:7180连接到 CM 的消息

现在在我的主机上我做了docker-machine env default,我可以看到输出

现在在我的主机上的浏览器中我做了

但一切都无法连接到任何页面。因此,即使在进行端口转发之后......我也无法从主机访问 cloudera 管理器或 HUE UI。

我正在使用 OSX。

我还进入了 virtualbox manager UI 并选择了默认 VM。我进入设置-> 网络-> 端口转发。并做了以下条目

在此处输入图像描述

但我仍然无法访问 cloudera manager 和 HUE ....

0 投票
1 回答
4253 浏览

hadoop - 快速启动 VM Cloudera 包裹无法启动

我在理解 Cloudera Quickstart VM 的某些内容时遇到问题。让我通过概述到目前为止的步骤来尝试解释。

  1. 我想使用 Kafka 编写一些东西来连接到 Web 服务并摄取数据馈送。
  2. 我将使用 Cloudera 5.5 快速入门 VM 作为我的游乐场。
  3. 我需要从包裹中安装 CDH 才能获得 Kafka。通过https://community.cloudera.com/t5/Apache-Hadoop-Concepts-and/cloudera-manager-5-4-0-installing-kafka-parcel-fails/td-p/30615
  4. 我在 Cloudera VM 的桌面上看到了一个漂亮的“迁移到 Parcels”图标,所以我单击它并让它完成。
  5. 我尝试启动 cloudera 服务,现在我得到以下所有这些 -

    /li>

后来,当我执行“top”命令时,我显然看不到进程正在运行。我还应该做什么?

0 投票
2 回答
1077 浏览

python - 为什么使用 python 的 hadoop mapReduce 失败但脚本正在命令行上运行?

我正在尝试使用 Cloudera 5.5.0 实现一个简单的 Hadoop map reduce 示例 应该使用 Python 2.6.6 实现 map 和 reduce 步骤

问题:

  • 如果脚本在 unix 命令行上执行,它们工作得非常好并产生预期的输出。

cat join2*.txt | ./join3_mapper.py | 排序 | ./join3_reducer.py

  • 但是将脚本作为 hadoop 任务执行非常失败

hadoop jar /usr/lib/hadoop-mapreduce/hadoop-streaming.jar -input /user/cloudera/inputTV/join2_gen*.txt -output /user/cloudera/output_tv -mapper /home/cloudera/join3_mapper.py -reducer /主页/cloudera/join3_reducer.py -numReduceTasks 1

16/01/06 12:32:32 INFO mapreduce.Job: Task Id : attempt_1452069211060_0026_r_000000_0, Status : FAILED Error: java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 1 at org.apache.hadoop.streaming.PipeMapRed.waitOutputThreads(PipeMapRed.java:325) at org.apache.hadoop.streaming.PipeMapRed.mapRedFinished(PipeMapRed.java:538) at org.apache.hadoop.streaming.PipeReducer.close(PipeReducer.java:134) at org.apache.hadoop.io.IOUtils.cleanup(IOUtils.java:244) at org.apache.hadoop.mapred.ReduceTask.runOldReducer(ReduceTask.java:459) at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:392) at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:163) at java.security.AccessController.doPrivileged(Native Method) at javax.security.auth.Subject.doAs(Subject.java:415) at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1671) at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:158)

  • 映射器工作,如果使用 -numReduceTasks 0 执行 hadoop 命令,则 hadoop 作业仅执行映射步骤,成功结束,输出目录包含映射步骤的结果文件。

  • 我想reduce步骤一定有问题吗?

  • Hue 中的 stderr 日志没有显示任何相关内容:

日志上传时间:2016 年 1 月 6 日星期三 12:33:10 -0800 日志长度:222 log4j:WARN 找不到记录器(org.apache.hadoop.ipc.Server)的附加程序。log4j:WARN 请正确初始化 log4j 系统。log4j:WARN 有关详细信息,请参阅http://logging.apache.org/log4j/1.2/faq.html#noconfig

脚本代码:第一个文件:join3_mapper.py

第二个文件:join3_reducer.py

我尝试了各种不同的方式将输入文件声明为 hadoop 命令,没有区别,没有成功。

我究竟做错了什么 ?提示,想法非常感谢谢谢

0 投票
2 回答
1321 浏览

hadoop - 快速启动 VM 5.5 无法在 VirtualBox 5.0.14 上启动

不知道为什么在我的 Windows 7 工作站(64 位)上的 VirtualBox 5.0.14 上启动 Cloudera CDH 5.5 如此具有挑战性。我的台式机是联想 30AGS01Y00,配备 1 个 Intel64 CPU、16GB RAM 和 1TB 硬盘。详细操作系统版本:6.1.7601 Service Pack 1 Build 7601。

安装 VirtualBox 并解压 Cloudera QuickStart VM 5.5 后,我使用 Red Hat(64 位)创建了我的 VM,内存大小:8,192MB 和“使用现有虚拟硬盘文件”选项指向 Cloudera 快速入门的 vmdk 文件用于虚拟盒子文件。创建 VM 后,我按照建议调整了其设置,例如“共享剪贴板”、“拖放”、“引导顺序”(仅保留硬盘)。

默认情况下,芯片组设置为 PIIX3。当我同时尝试 PIIX3 和 ICH9 时,它没有任何区别。

我将处理器保留为 1 个 CPU,因为即使启用了 VT-x 和物理超线程,我的桌面也只有 1 个物理 CPU。嵌套分页也被启用。

Cloudera VM 的存储是使用 SATA 和类型创建的:AHCI。其余设置保持不变(默认)。

当我尝试启动虚拟机时,我的虚拟机屏幕看起来与此问题中描述的完全相同: 虚拟机“Cloudera 快速启动”未启动

我已经用谷歌搜索这个问题大约一周了。上面的问题是我在网上能找到的最接近的案例。我尝试了各种 VM 设置,但没有运气。不确定根本原因是什么。

我试图退回到 Cloudera QuickStart VM 5.4.2。也没有运气。

似乎无法附加 zip 文件。VBox 和 VboxHardening 日志中的一些关键元素摘录如下:

Vbox.log

注意:我不知道F:驱动器是什么。F:我的桌面上没有驱动器。

VBoxHardening.log:

0 投票
1 回答
419 浏览

oozie - Oozie Shared Lib:放置罐子的位置

我已经安装了 Cloudera CDH QuickStart VM 5.5,并且正在我的 Oozie 工作流程中运行 Sqoop 操作。我遇到了一个错误,说缺少 MySQL JDBC 驱动程序,我在这里遇到了一个 SO 答案,说 mysql-connector-java.jar 应该放在 Oozie 的 HDFS 共享库路径中,sqoop路径下。

然而,当我浏览 Oozie 的 HDFS 共享库路径时,我注意到有两个sqoop子目录用于复制 jar。

除了sqoop, hive, pig,distcpmapreduce-streaming路径也存在于lib和上lib/lib_20151118030154

所以问题是:我应该把连接器罐放在哪里:第一个还是第二个?

sqoop这两条路径与, hive, pig,distcpmapreduce-streamingOozie的 jars 有什么区别(或目的不同) ?

0 投票
1 回答
36 浏览

maven - 编程 Sqoop:v1.4.x 或 v1.99.x

我正在使用 Cloudera Quickstart VM CDH 5.5.0,并且正在尝试在 Maven 项目中为 Sqoop 执行一些自定义 Java 代码。但是,我对 Maven 依赖项的两个版本有点困惑:

当我尝试挖掘 Sqoop 的文档时,似乎 v1.99.x 与Sqoop2相关。根据Cloudera here的说法,目前还不鼓励使用 Sqoop2 。

此外,我只能在使用 v1.99.x 依赖项时获取 jars,而不能在 v1.4.x 时获取。

那么,如果我想做 Sqoop 编程,我应该使用哪一个呢?两个版本有什么区别?

0 投票
1 回答
441 浏览

sql-server - 将多个客户端数据加载到 Hadoop 中的最佳实践

我们正在使用 Cloudera CDH 在 Hadoop 框架上创建 POC。我们想将多个客户端的数据加载到 Hive 表中。

到目前为止,我们在 SQL Server 上为每个客户端都有单独的数据库。对于 OLTP,此基础架构将保持不变。Hadoop 将用于 OLAP。我们有一些对每个客户都相同的主要维度表。所有客户端数据库都具有完全相同的架构。这些表具有相同的主键值。到目前为止,这很好,因为我们为客户提供了单独的数据库。现在我们正在尝试将多个客户端数据加载到同一个数据容器(Hive 表)中。现在,如果我们通过 Sqoop 作业将数据从多个 SQL Server 数据库直接加载到 Hive 中,我们将拥有多个具有相同主键值的行。我正在考虑在 Hive 表中使用代理键,但 Hive 不支持自动增量,但可以使用 UDF 来实现。

我们不想修改 SQL Server 数据,因为它正在运行生产数据。

一种。将多个客户端数据加载到 Hadoop 生态系统的标准/通用方式/解决方案是什么?

湾。sql server 数据库表的主键如何轻松映射到 Hadoop Hive 表?

C。我们如何确保一个客户端永远无法看到其他客户端的数据?

谢谢

0 投票
1 回答
882 浏览

apache-spark - 在 Cloudera VM 中添加 spark-csv 包时遇到问题

我正在使用 Cloudera 快速启动 VM 来测试一些 pyspark 工作。对于一项任务,我需要添加 spark-csv 包。这就是我所做的:

pyspark 启动良好,但我确实收到以下警告:

然后我在 pyspark 中运行我的代码:

但我收到一条错误消息:

可能出了什么问题?在此先感谢您的帮助。