“cloudera-quickstart-vm”的相关标签问题

0 投票

2 回答

8137 浏览

apache-spark - 如何检查 cloudera-quickstart-vm 上 Spark（独立）服务的状态？

我正在尝试获取服务的状态，即在我的本地 vm 上运行的 Spark（独立）服务上运行的 spark-master 和 spark-slaves

但是运行sudo service spark-master status不起作用。

任何人都可以提供一些关于如何检查 Spark 服务状态的提示吗？

apache-spark cloudera-quickstart-vm

2015-11-30T11:42:18.363

0 投票

1 回答

39508 浏览

hadoop - 尝试使用不支持这些操作的事务管理器进行更新或删除

尝试在 Cloudera Quickstart VM 中更新 Hive 表中的数据时，出现此错误。

编译语句时出错：失败：SemanticException [错误 10294]：尝试使用不支持这些操作的事务管理器进行更新或删除。

我在 hive-site.xml 文件中添加了一些更改，并重新启动了 hive 和 cloudera。这些是我在 Hive-site.xml 中所做的更改

2015-12-10T09:41:51.787

0 投票

6 回答

7265 浏览

hadoop - 在 Cloudera Docker 快速入门上访问 Hue

我已经根据此处给出的说明使用 docker 安装了 cloudera 快速入门。

https://blog.cloudera.com/blog/2015/12/docker-is-the-new-quickstart-option-for-apache-hadoop-and-cloudera/

你可以看到我在做-p 7180和-p 8888做端口映射。

当容器成功启动时。我看到hue服务启动失败了。但我使用手动运行它sudo service hue restart，它显示正常。

现在我跑了

此命令成功我收到一条使用http://cloudera.quickstart:7180连接到 CM 的消息

现在在我的主机上我做了docker-machine env default，我可以看到输出

现在在我的主机上的浏览器中我做了

但一切都无法连接到任何页面。因此，即使在进行端口转发之后......我也无法从主机访问 cloudera 管理器或 HUE UI。

我正在使用 OSX。

我还进入了 virtualbox manager UI 并选择了默认 VM。我进入设置-> 网络-> 端口转发。并做了以下条目

但我仍然无法访问 cloudera manager 和 HUE ....

hadoop docker cloudera cloudera-quickstart-vm

2015-12-21T03:21:23.060

0 投票

1 回答

4253 浏览

hadoop - 快速启动 VM Cloudera 包裹无法启动

我在理解 Cloudera Quickstart VM 的某些内容时遇到问题。让我通过概述到目前为止的步骤来尝试解释。

我想使用 Kafka 编写一些东西来连接到 Web 服务并摄取数据馈送。
我将使用 Cloudera 5.5 快速入门 VM 作为我的游乐场。
我需要从包裹中安装 CDH 才能获得 Kafka。通过https://community.cloudera.com/t5/Apache-Hadoop-Concepts-and/cloudera-manager-5-4-0-installing-kafka-parcel-fails/td-p/30615
我在 Cloudera VM 的桌面上看到了一个漂亮的“迁移到 Parcels”图标，所以我单击它并让它完成。
我尝试启动 cloudera 服务，现在我得到以下所有这些 -
/li>

后来，当我执行“top”命令时，我显然看不到进程正在运行。我还应该做什么？

hadoop cloudera cloudera-cdh cloudera-manager cloudera-quickstart-vm

2015-12-27T04:44:25.737

0 投票

2 回答

1077 浏览

python - 为什么使用 python 的 hadoop mapReduce 失败但脚本正在命令行上运行？

我正在尝试使用 Cloudera 5.5.0 实现一个简单的 Hadoop map reduce 示例应该使用 Python 2.6.6 实现 map 和 reduce 步骤

问题：

如果脚本在 unix 命令行上执行，它们工作得非常好并产生预期的输出。

cat join2*.txt | ./join3_mapper.py | 排序 | ./join3_reducer.py

但是将脚本作为 hadoop 任务执行非常失败：

hadoop jar /usr/lib/hadoop-mapreduce/hadoop-streaming.jar -input /user/cloudera/inputTV/join2_gen*.txt -output /user/cloudera/output_tv -mapper /home/cloudera/join3_mapper.py -reducer /主页/cloudera/join3_reducer.py -numReduceTasks 1

16/01/06 12:32:32 INFO mapreduce.Job: Task Id : attempt_1452069211060_0026_r_000000_0, Status : FAILED Error: java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 1 at org.apache.hadoop.streaming.PipeMapRed.waitOutputThreads(PipeMapRed.java:325) at org.apache.hadoop.streaming.PipeMapRed.mapRedFinished(PipeMapRed.java:538) at org.apache.hadoop.streaming.PipeReducer.close(PipeReducer.java:134) at org.apache.hadoop.io.IOUtils.cleanup(IOUtils.java:244) at org.apache.hadoop.mapred.ReduceTask.runOldReducer(ReduceTask.java:459) at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:392) at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:163) at java.security.AccessController.doPrivileged(Native Method) at javax.security.auth.Subject.doAs(Subject.java:415) at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1671) at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:158)

映射器工作，如果使用 -numReduceTasks 0 执行 hadoop 命令，则 hadoop 作业仅执行映射步骤，成功结束，输出目录包含映射步骤的结果文件。
我想reduce步骤一定有问题吗？
Hue 中的 stderr 日志没有显示任何相关内容：

日志上传时间：2016 年 1 月 6 日星期三 12:33:10 -0800 日志长度：222 log4j:WARN 找不到记录器（org.apache.hadoop.ipc.Server）的附加程序。log4j:WARN 请正确初始化 log4j 系统。log4j:WARN 有关详细信息，请参阅http://logging.apache.org/log4j/1.2/faq.html#noconfig。

脚本代码：第一个文件：join3_mapper.py

第二个文件：join3_reducer.py

我尝试了各种不同的方式将输入文件声明为 hadoop 命令，没有区别，没有成功。

我究竟做错了什么？提示，想法非常感谢谢谢

python hadoop mapreduce cloudera-quickstart-vm

2016-01-06T20:59:29.207

0 投票

2 回答

1321 浏览

hadoop - 快速启动 VM 5.5 无法在 VirtualBox 5.0.14 上启动

不知道为什么在我的 Windows 7 工作站（64 位）上的 VirtualBox 5.0.14 上启动 Cloudera CDH 5.5 如此具有挑战性。我的台式机是联想 30AGS01Y00，配备 1 个 Intel64 CPU、16GB RAM 和 1TB 硬盘。详细操作系统版本：6.1.7601 Service Pack 1 Build 7601。

安装 VirtualBox 并解压 Cloudera QuickStart VM 5.5 后，我使用 Red Hat（64 位）创建了我的 VM，内存大小：8,192MB 和“使用现有虚拟硬盘文件”选项指向 Cloudera 快速入门的 vmdk 文件用于虚拟盒子文件。创建 VM 后，我按照建议调整了其设置，例如“共享剪贴板”、“拖放”、“引导顺序”（仅保留硬盘）。

默认情况下，芯片组设置为 PIIX3。当我同时尝试 PIIX3 和 ICH9 时，它没有任何区别。

我将处理器保留为 1 个 CPU，因为即使启用了 VT-x 和物理超线程，我的桌面也只有 1 个物理 CPU。嵌套分页也被启用。

Cloudera VM 的存储是使用 SATA 和类型创建的：AHCI。其余设置保持不变（默认）。

当我尝试启动虚拟机时，我的虚拟机屏幕看起来与此问题中描述的完全相同：虚拟机“Cloudera 快速启动”未启动

我已经用谷歌搜索这个问题大约一周了。上面的问题是我在网上能找到的最接近的案例。我尝试了各种 VM 设置，但没有运气。不确定根本原因是什么。

我试图退回到 Cloudera QuickStart VM 5.4.2。也没有运气。

似乎无法附加 zip 文件。VBox 和 VboxHardening 日志中的一些关键元素摘录如下：

Vbox.log

注意：我不知道F:驱动器是什么。F:我的桌面上没有驱动器。

VBoxHardening.log：

hadoop centos virtualbox cloudera cloudera-quickstart-vm

2016-01-20T04:39:50.810

0 投票

1 回答

419 浏览

oozie - Oozie Shared Lib：放置罐子的位置

我已经安装了 Cloudera CDH QuickStart VM 5.5，并且正在我的 Oozie 工作流程中运行 Sqoop 操作。我遇到了一个错误，说缺少 MySQL JDBC 驱动程序，我在这里遇到了一个 SO 答案，说 mysql-connector-java.jar 应该放在 Oozie 的 HDFS 共享库路径中，sqoop路径下。

然而，当我浏览 Oozie 的 HDFS 共享库路径时，我注意到有两个sqoop子目录用于复制 jar。

和

除了sqoop, hive, pig,distcp和mapreduce-streaming路径也存在于lib和上lib/lib_20151118030154。

所以问题是：我应该把连接器罐放在哪里：第一个还是第二个？

sqoop这两条路径与, hive, pig,distcp和mapreduce-streamingOozie的 jars 有什么区别（或目的不同）？

oozie cloudera-cdh sqoop2 cloudera-quickstart-vm

2016-01-21T10:08:19.043

0 投票

1 回答

36 浏览

maven - 编程 Sqoop：v1.4.x 或 v1.99.x

我正在使用 Cloudera Quickstart VM CDH 5.5.0，并且正在尝试在 Maven 项目中为 Sqoop 执行一些自定义 Java 代码。但是，我对 Maven 依赖项的两个版本有点困惑：

当我尝试挖掘 Sqoop 的文档时，似乎 v1.99.x 与Sqoop2相关。根据Cloudera here的说法，目前还不鼓励使用 Sqoop2 。

此外，我只能在使用 v1.99.x 依赖项时获取 jars，而不能在 v1.4.x 时获取。

那么，如果我想做 Sqoop 编程，我应该使用哪一个呢？两个版本有什么区别？

maven sqoop sqoop2 cloudera-quickstart-vm

2016-01-25T04:41:22.747

0 投票

1 回答

441 浏览

sql-server - 将多个客户端数据加载到 Hadoop 中的最佳实践

我们正在使用 Cloudera CDH 在 Hadoop 框架上创建 POC。我们想将多个客户端的数据加载到 Hive 表中。

到目前为止，我们在 SQL Server 上为每个客户端都有单独的数据库。对于 OLTP，此基础架构将保持不变。Hadoop 将用于 OLAP。我们有一些对每个客户都相同的主要维度表。所有客户端数据库都具有完全相同的架构。这些表具有相同的主键值。到目前为止，这很好，因为我们为客户提供了单独的数据库。现在我们正在尝试将多个客户端数据加载到同一个数据容器（Hive 表）中。现在，如果我们通过 Sqoop 作业将数据从多个 SQL Server 数据库直接加载到 Hive 中，我们将拥有多个具有相同主键值的行。我正在考虑在 Hive 表中使用代理键，但 Hive 不支持自动增量，但可以使用 UDF 来实现。

我们不想修改 SQL Server 数据，因为它正在运行生产数据。

一种。将多个客户端数据加载到 Hadoop 生态系统的标准/通用方式/解决方案是什么？

湾。sql server 数据库表的主键如何轻松映射到 Hadoop Hive 表？

C。我们如何确保一个客户端永远无法看到其他客户端的数据？

谢谢

sql-server hadoop hive sqoop cloudera-quickstart-vm

2016-01-27T10:27:48.590

0 投票

1 回答

882 浏览

apache-spark - 在 Cloudera VM 中添加 spark-csv 包时遇到问题

我正在使用 Cloudera 快速启动 VM 来测试一些 pyspark 工作。对于一项任务，我需要添加 spark-csv 包。这就是我所做的：

pyspark 启动良好，但我确实收到以下警告：

然后我在 pyspark 中运行我的代码：

但我收到一条错误消息：

可能出了什么问题？在此先感谢您的帮助。

apache-spark pyspark spark-dataframe cloudera-quickstart-vm

2016-02-08T01:43:32.877

问题标签 [cloudera-quickstart-vm]

Reference