问题标签 [cloudera-quickstart-vm]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - 如何检查 cloudera-quickstart-vm 上 Spark(独立)服务的状态?
我正在尝试获取服务的状态,即在我的本地 vm 上运行的 Spark(独立)服务上运行的 spark-master 和 spark-slaves
但是运行sudo service spark-master status
不起作用。
任何人都可以提供一些关于如何检查 Spark 服务状态的提示吗?
hadoop - 尝试使用不支持这些操作的事务管理器进行更新或删除
尝试在 Cloudera Quickstart VM 中更新 Hive 表中的数据时,出现此错误。
编译语句时出错:失败:SemanticException [错误 10294]:尝试使用不支持这些操作的事务管理器进行更新或删除。
我在 hive-site.xml 文件中添加了一些更改,并重新启动了 hive 和 cloudera。这些是我在 Hive-site.xml 中所做的更改
hadoop - 在 Cloudera Docker 快速入门上访问 Hue
我已经根据此处给出的说明使用 docker 安装了 cloudera 快速入门。
你可以看到我在做-p 7180
和-p 8888
做端口映射。
当容器成功启动时。我看到hue服务启动失败了。但我使用手动运行它sudo service hue restart
,它显示正常。
现在我跑了
此命令成功我收到一条使用http://cloudera.quickstart:7180连接到 CM 的消息
现在在我的主机上我做了docker-machine env default
,我可以看到输出
现在在我的主机上的浏览器中我做了
但一切都无法连接到任何页面。因此,即使在进行端口转发之后......我也无法从主机访问 cloudera 管理器或 HUE UI。
我正在使用 OSX。
我还进入了 virtualbox manager UI 并选择了默认 VM。我进入设置-> 网络-> 端口转发。并做了以下条目
但我仍然无法访问 cloudera manager 和 HUE ....
hadoop - 快速启动 VM Cloudera 包裹无法启动
我在理解 Cloudera Quickstart VM 的某些内容时遇到问题。让我通过概述到目前为止的步骤来尝试解释。
- 我想使用 Kafka 编写一些东西来连接到 Web 服务并摄取数据馈送。
- 我将使用 Cloudera 5.5 快速入门 VM 作为我的游乐场。
- 我需要从包裹中安装 CDH 才能获得 Kafka。通过https://community.cloudera.com/t5/Apache-Hadoop-Concepts-and/cloudera-manager-5-4-0-installing-kafka-parcel-fails/td-p/30615
- 我在 Cloudera VM 的桌面上看到了一个漂亮的“迁移到 Parcels”图标,所以我单击它并让它完成。
我尝试启动 cloudera 服务,现在我得到以下所有这些 -
/li>
后来,当我执行“top”命令时,我显然看不到进程正在运行。我还应该做什么?
python - 为什么使用 python 的 hadoop mapReduce 失败但脚本正在命令行上运行?
我正在尝试使用 Cloudera 5.5.0 实现一个简单的 Hadoop map reduce 示例 应该使用 Python 2.6.6 实现 map 和 reduce 步骤
问题:
- 如果脚本在 unix 命令行上执行,它们工作得非常好并产生预期的输出。
cat join2*.txt | ./join3_mapper.py | 排序 | ./join3_reducer.py
- 但是将脚本作为 hadoop 任务执行非常失败:
hadoop jar /usr/lib/hadoop-mapreduce/hadoop-streaming.jar -input /user/cloudera/inputTV/join2_gen*.txt -output /user/cloudera/output_tv -mapper /home/cloudera/join3_mapper.py -reducer /主页/cloudera/join3_reducer.py -numReduceTasks 1
16/01/06 12:32:32 INFO mapreduce.Job: Task Id : attempt_1452069211060_0026_r_000000_0, Status : FAILED
Error: java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 1
at org.apache.hadoop.streaming.PipeMapRed.waitOutputThreads(PipeMapRed.java:325)
at org.apache.hadoop.streaming.PipeMapRed.mapRedFinished(PipeMapRed.java:538)
at org.apache.hadoop.streaming.PipeReducer.close(PipeReducer.java:134)
at org.apache.hadoop.io.IOUtils.cleanup(IOUtils.java:244)
at org.apache.hadoop.mapred.ReduceTask.runOldReducer(ReduceTask.java:459)
at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:392)
at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:163)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:415)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1671)
at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:158)
映射器工作,如果使用 -numReduceTasks 0 执行 hadoop 命令,则 hadoop 作业仅执行映射步骤,成功结束,输出目录包含映射步骤的结果文件。
我想reduce步骤一定有问题吗?
- Hue 中的 stderr 日志没有显示任何相关内容:
日志上传时间:2016 年 1 月 6 日星期三 12:33:10 -0800 日志长度:222 log4j:WARN 找不到记录器(org.apache.hadoop.ipc.Server)的附加程序。log4j:WARN 请正确初始化 log4j 系统。log4j:WARN 有关详细信息,请参阅http://logging.apache.org/log4j/1.2/faq.html#noconfig。
脚本代码:第一个文件:join3_mapper.py
第二个文件:join3_reducer.py
我尝试了各种不同的方式将输入文件声明为 hadoop 命令,没有区别,没有成功。
我究竟做错了什么 ?提示,想法非常感谢谢谢
hadoop - 快速启动 VM 5.5 无法在 VirtualBox 5.0.14 上启动
不知道为什么在我的 Windows 7 工作站(64 位)上的 VirtualBox 5.0.14 上启动 Cloudera CDH 5.5 如此具有挑战性。我的台式机是联想 30AGS01Y00,配备 1 个 Intel64 CPU、16GB RAM 和 1TB 硬盘。详细操作系统版本:6.1.7601 Service Pack 1 Build 7601。
安装 VirtualBox 并解压 Cloudera QuickStart VM 5.5 后,我使用 Red Hat(64 位)创建了我的 VM,内存大小:8,192MB 和“使用现有虚拟硬盘文件”选项指向 Cloudera 快速入门的 vmdk 文件用于虚拟盒子文件。创建 VM 后,我按照建议调整了其设置,例如“共享剪贴板”、“拖放”、“引导顺序”(仅保留硬盘)。
默认情况下,芯片组设置为 PIIX3。当我同时尝试 PIIX3 和 ICH9 时,它没有任何区别。
我将处理器保留为 1 个 CPU,因为即使启用了 VT-x 和物理超线程,我的桌面也只有 1 个物理 CPU。嵌套分页也被启用。
Cloudera VM 的存储是使用 SATA 和类型创建的:AHCI。其余设置保持不变(默认)。
当我尝试启动虚拟机时,我的虚拟机屏幕看起来与此问题中描述的完全相同: 虚拟机“Cloudera 快速启动”未启动
我已经用谷歌搜索这个问题大约一周了。上面的问题是我在网上能找到的最接近的案例。我尝试了各种 VM 设置,但没有运气。不确定根本原因是什么。
我试图退回到 Cloudera QuickStart VM 5.4.2。也没有运气。
似乎无法附加 zip 文件。VBox 和 VboxHardening 日志中的一些关键元素摘录如下:
Vbox.log
注意:我不知道F:
驱动器是什么。F:
我的桌面上没有驱动器。
VBoxHardening.log:
oozie - Oozie Shared Lib:放置罐子的位置
我已经安装了 Cloudera CDH QuickStart VM 5.5,并且正在我的 Oozie 工作流程中运行 Sqoop 操作。我遇到了一个错误,说缺少 MySQL JDBC 驱动程序,我在这里遇到了一个 SO 答案,说 mysql-connector-java.jar 应该放在 Oozie 的 HDFS 共享库路径中,sqoop
路径下。
然而,当我浏览 Oozie 的 HDFS 共享库路径时,我注意到有两个sqoop
子目录用于复制 jar。
和
除了sqoop
, hive
, pig
,distcp
和mapreduce-streaming
路径也存在于lib
和上lib/lib_20151118030154
。
所以问题是:我应该把连接器罐放在哪里:第一个还是第二个?
sqoop
这两条路径与, hive
, pig
,distcp
和mapreduce-streaming
Oozie的 jars 有什么区别(或目的不同) ?
maven - 编程 Sqoop:v1.4.x 或 v1.99.x
我正在使用 Cloudera Quickstart VM CDH 5.5.0,并且正在尝试在 Maven 项目中为 Sqoop 执行一些自定义 Java 代码。但是,我对 Maven 依赖项的两个版本有点困惑:
当我尝试挖掘 Sqoop 的文档时,似乎 v1.99.x 与Sqoop2相关。根据Cloudera here的说法,目前还不鼓励使用 Sqoop2 。
此外,我只能在使用 v1.99.x 依赖项时获取 jars,而不能在 v1.4.x 时获取。
那么,如果我想做 Sqoop 编程,我应该使用哪一个呢?两个版本有什么区别?
sql-server - 将多个客户端数据加载到 Hadoop 中的最佳实践
我们正在使用 Cloudera CDH 在 Hadoop 框架上创建 POC。我们想将多个客户端的数据加载到 Hive 表中。
到目前为止,我们在 SQL Server 上为每个客户端都有单独的数据库。对于 OLTP,此基础架构将保持不变。Hadoop 将用于 OLAP。我们有一些对每个客户都相同的主要维度表。所有客户端数据库都具有完全相同的架构。这些表具有相同的主键值。到目前为止,这很好,因为我们为客户提供了单独的数据库。现在我们正在尝试将多个客户端数据加载到同一个数据容器(Hive 表)中。现在,如果我们通过 Sqoop 作业将数据从多个 SQL Server 数据库直接加载到 Hive 中,我们将拥有多个具有相同主键值的行。我正在考虑在 Hive 表中使用代理键,但 Hive 不支持自动增量,但可以使用 UDF 来实现。
我们不想修改 SQL Server 数据,因为它正在运行生产数据。
一种。将多个客户端数据加载到 Hadoop 生态系统的标准/通用方式/解决方案是什么?
湾。sql server 数据库表的主键如何轻松映射到 Hadoop Hive 表?
C。我们如何确保一个客户端永远无法看到其他客户端的数据?
谢谢
apache-spark - 在 Cloudera VM 中添加 spark-csv 包时遇到问题
我正在使用 Cloudera 快速启动 VM 来测试一些 pyspark 工作。对于一项任务,我需要添加 spark-csv 包。这就是我所做的:
pyspark 启动良好,但我确实收到以下警告:
然后我在 pyspark 中运行我的代码:
但我收到一条错误消息:
可能出了什么问题?在此先感谢您的帮助。