问题标签 [cloudera-quickstart-vm]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
352 浏览

hadoop - Hive 无法加载数据-cloudera quickstart VM 5.8

我使用 cloudera quickstart VM 5.8 作为 hadoop 环境。我尝试执行以下操作。

  1. 使用 hdfs 绝对 uri 创建了一个配置单元表

如果不存在,则创建外部表quickstart.cloudera:8020/hadoop/hive/stocks';

{我尝试使用相对路径,但配置单元 CLI 抱怨我正在使用需要绝对路径的相对路径}

  1. 将数据集 stock 从本地文件系统加载到 HDFS 中的 input/stocks。

  2. 试图将数据集加载到表中

将数据输入路径'hdfs://quickstart.cloudera:8020/input/stocks' INTO TABLE stock_tb;

我得到错误

我不知道为什么我会收到这个错误。数据存在于 input/stocks/stocks 中,但出现错误。

你能发现错误/关于错误的任何想法吗?

当我这样做的时候

hadoop fs -ls hdfs://quickstart.cloudera:8020/input/stocks

我看不到任何文件,但是当我看到时

hadoop fs -ls 输入/库存

我看到股票文件

我不知道如何解释这个。你能帮忙吗?

谢谢

0 投票
1 回答
328 浏览

ubuntu - Ubuntu 上的 Cloudera 快速入门 VM

我目前在笔记本电脑上使用 ubuntu 14.04(无 Windows)。我是否必须安装 Virtualbox 或 VMware 才能在其上使用 Cloudera QuickStarts Vm。

0 投票
2 回答
1717 浏览

apache-spark - 使用 Oozie 和 Hue 运行 spark python 作业 - 拦截 System.exit(1)

我必须将一些 Spark python 脚本作为 Oozie 工作流运行,我已经使用 Spark 在本地测试了这些脚本,但是当我将它们提交给 Oozie 时,我无法弄清楚为什么它不起作用。我正在使用 Cloudera VM,并且正在使用 Hue 仪表板管理 Oozie。以下是 spark 操作的工作流配置:

我还尝试运行一个简单的示例,它只打印一些东西,但是我提交 Oozie 的每个脚本都会给我这个输出:

[编辑]

我发现工作流只有在我设置 spark master: yarn-cluster 时才会启动,但即使在这种模式下,它也会启动保持在 95% 完成的地图上的纱线容器,而 spark 应用程序仍处于 ACCEPTED 状态。我正在尝试更改 Yarn 内存参数以允许 Spark 操作启动。粗壮的只是打印心跳

[解决了]

oozie 工作流仅在 py 文件是本地文件时启动,并且在 hue 创建工作流文件夹后手动插入到 lib 文件夹中。我认为最好的解决方案仍然是编写带有 spark-submit 的 shell 脚本

0 投票
1 回答
665 浏览

hadoop - 如何使用 Cloudera Quickstart Docker 容器执行 MapReduce 作业/JAR

我需要一些关于如何使用 Cloudera Docker 容器运行 MapReduce 程序/作业的帮助。
我正在使用 Linux (ElementaryOS) 高配置。笔记本电脑(24GB RAM,i7 处理器)。
我能够安装 Cloudera docker 映像,运行它并且还没有问题地执行了以下操作:
1. 看到 # 提示符并运行 HDFS 命令 (hadoop fs -ls),尽管它没有返回任何内容。
2.能够访问Hue Editor
3.能够运行Cloudera manager并启动所有服务(Everything)。
4.在我的本地环境中,我可以创建一个 WordCount MapReduce 程序(jar),下载该程序的所有 Maven 依赖项(不在 docker 容器内)。
现在我的问题是:
如何将这个 WordCount JAR 提交给正在运行的 Docker 容器?
如何使用上传的文本文件 (HDFS) 运行这个 MapReduce 程序/作业 (WordCount)?

0 投票
1 回答
1881 浏览

cloudera - Oozie-sqoop 工作流在 cloudera 中因心跳问题而挂起

我正在尝试使用来自hue(Cloudera VM)的oozie运行一个简单的sqoop导入。提交后几秒钟,这项工作永远被心跳问题所困扰,我做了一些搜索并找到了这个线程https://community.cloudera .com/t5/Batch-Processing-and-Workflow/Oozie-launcher-never-ends/td-p/13330,我添加了以下所有 yarn-site.xml 文件中提到的 XML 属性,不知道是哪个特定文件,但没用,我仍然面临同样的问题,任何人都可以对此提供一些见解吗?

工作日志

工作流 XML

谢谢 Mx

0 投票
2 回答
230 浏览

java - Cloudera 路径 VMware 中的 Hadoop

嗨,我已经在 cloudera vm 4.2.1 p 中的 java 中实现了我的平均字数,我已经转换为 Jar 文件并运行了命令:hadoop jar averagewordlength.jar stubs.AvgWordLength Shakespeare wordleng

下一步:我已正确运行莎士比亚,但无法运行我的文件(我创建的文件:newfile)。它抛出一个异常:

线程“主”org.apache.hadoop.mapreduce.lib.input.InvalidInputException 中的异常:输入路径不存在:org.apache.hadoop.mapreduce 处的 hdfs://0.0.0.0:8020/user/training/newfile。 lib.input.FileInputFormat.listStatus(FileInputFormat.java:231) at org.apache.hadoop.mapreduce.lib.input.FileInputFormat.getSplits(FileInputFormat.java:248) at org.apache.hadoop.mapred.JobClient.writeNewSplits( JobClient.java:1064) 在 org.apache.hadoop.mapred.JobClient.writeSplits(JobClient.java:1081) 在 org.apache.hadoop.mapred.JobClient.access$600(JobClient.java:174) 在 org.apache。 hadoop.mapred.JobClient$2.run(JobClient.java:993) at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:946) at java.security.AccessController.doPrivileged(Native Method) at javax。 security.auth.Subject.doAs(Subject.java:396) 在 org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1408) 在 org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java)

请指导粘贴新文件以检查我的解决方案的路径。

0 投票
1 回答
40 浏览

hdfs - 将mysql数据导入hdfs内容文件不读取CCA

我想查看使用 sqoop 导入 mysql 数据的 hdfs 文件的内容。

我运行了命令hadoop dfs -cat /user/cloudera/products/part-m-00000

我收到错误:

0 投票
2 回答
2085 浏览

hbase - 无法通过 Hue 访问 Hbase

因此,我试图通过 Cloudera VM 中的 Hue 浏览器访问 HBase,但遇到了一些问题。首先,当我打开 Hue 时,出现此错误:

当我转到 Hue 中的 Hbase 时,我收到此错误:

我在浏览器中检查了 Cloudera 快速启动 UI,发现 Hbase Thrift 服务器实例已关闭,因此我尝试重新启动它,但无法重新启动。

在 Hbase 配置中

所以,我将它设置为 none,重新启动 Hbase 和 Hue,现在 Hbase thrift 服务器启动了。然后我去了Hue浏览器,但它显示错误

当我去Hbase时,它显示

我尝试了谷歌上所有可用的东西,比如同时检查

但即使尝试了一切,我的错误并没有消失,我无法通过 Hue 访问 Hbase。

任何想法可能是什么问题?

0 投票
1 回答
1295 浏览

hadoop - Hive Shell 挂起并变得无响应

我的 Hive shell 在配置中的日志记录初始化时挂起

这是日志文件描述。

2017-02-28 08:56:34,685 WARN [main]:hive.metastore (HiveMetaStoreClient.java:open(448)) - set_ugi() 不成功,可能的原因:新客户端与旧服务器通信。继续没有它。
org.apache.thrift.transport.TTransportException:java.net.SocketTimeoutException:在 org.apache.thrift.transport.TTransport.readAll 的org.apache.thrift.transport.TIOStreamTransport.read(TIOStreamTransport.java:129) 处读取超时(TTransport.java:86)

0 投票
1 回答
2925 浏览

hadoop - Hive:如果没有运行的 HiveServer2,应用程序将无法工作

我是这个领域的新手。我正在检查 CDH 5.8 快速启动 VM 以尝试一些基本的 hive/impala 示例。

但是我遇到了一个问题,当我打开 HUE 时,它给出了以下错误。我搜索了解决方案,但没有得到任何可以解决我的问题的东西。

我检查了它,它已经启动并运行了。尝试重新启动服务和 CDH,没有帮助。

当导航到 Hive 时尝试了一些命令,它给了我以下错误。

Could not connect to quickstart.cloudera:10000 (code THRIFTTRANSPORT): TTransportException('Could not connect to quickstart.cloudera:10000',)

对于黑斑羚,我得到

AnalysisException: This Impala daemon is not ready to accept user requests. Status: Waiting for catalog update from the StateStore.

尝试启动 hive --service metastore 但出现错误

不知道出了什么问题,或者我是否需要更改一些配置。你能指导我解决问题吗?