问题标签 [cloudera-quickstart-vm]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
294 浏览

hadoop - Cloudera 中的 Hive 服务器快速入门

我正在尝试创建一个表单并使用 servlet 与 hive 的表连接。但我有一些疑问:

  • Hive 服务器是否安装在 cloudera 快速入门中?
  • servlet 是否需要 Tomcat 等其他服务器?
  • 我必须在 IDE 中有库吗?或者也在其他地方?
  • 是否可以通过表单启动 servlet 并在 cloudera 快速入门的导航器中显示数据?
  • JDBC 必须安装在我的本地主机还是虚拟机中?
  • 我在哪里声明 XML?
0 投票
0 回答
518 浏览

hadoop - Metastore 表中的直线和配置单元查询

我在 linux red hat 上有 cloudera quickstart 5.5。我尝试通过色调创建元存储表,但这些表也是在 hive1 而不是 hive2 中创建的。因此,当我通过蜂巢线进行查询时,查询和显示表有效,但直线(hive2)为空(显示表不显示显示)。如何通过色调或其他方式创建表格以便能够通过直线查询查询?谢谢。

0 投票
0 回答
1104 浏览

java - Hadoop-无法编译java类

我修改了一个名为 的文件compile.sh,我完全更改了文件的路径.jar。这是 compile.sh 原始文件:

这是我修改后的compile.sh:

当我运行 compile.sh 时,出现以下错误:

我在相同的页面中发现我应该将 compile.sh 添加hadoop-mapreduce-client.jar到 compile.sh 中,但我hadoop-mapreduce-client.jar在我的版本中发现了很多CDH5.4。请帮我。

0 投票
1 回答
1360 浏览

hadoop - 使用 distcp 将数据从 cloudera 集群复制到 google cloud hdfs 集群

我正在使用 cloudera 快速入门 vm。我昨天开始玩谷歌云平台。我正在尝试将 cloudera hdfs 中的数据复制到 1. google cloud storage (gs://bucket_name/) 2. google cloud hdfs cluster (使用 hdfs://google_cluster_namenode:8020/)

  1. 我按照本文中的说明设置了服务帐户身份验证并配置了我的 cloudera core-site.xml

    /li>

工作正常。但是,我无法使用 distcp 复制到谷歌云存储。我收到以下错误。我知道这不是 URI 问题。还有什么我想念的吗?

  1. 我无法让 distcp 连接到 google cloud hdfs namenode;我收到“正在重试连接到服务器”。我找不到任何文档来配置 cloudera hdfs 集群和 google cloud hdfs 集群之间的连接。我假设服务帐户身份验证也应该与 google hdfs 一起使用。是否有可用于在集群之间设置副本的参考文档?我还缺少其他身份验证设置吗?
0 投票
2 回答
399 浏览

python - Exceptions when reading tutorial CSV file in the Cloudera VM

I'm trying to do a Spark tutorial that comes with the Cloudera Virtual Machine. But even though I'm using the correct line-ending encoding, I can not execute the scripts, because I get tons of errors. The tutorial is part of the Coursera Introduction to Big Data Analytics course. The assignment can be found here.

So here's what I did. Install the IPython shell (if not yet done):

Open/Start the shell (either with 1.2.0 or 1.4.0):

Set the line-endings to windows style. This is because the file is in windows-encoding and it's said in the course to do so. If you don't do this, you'll get other errors.

Trying to load the CSV file:

But getting a very long list of errors, which starts like this:

The full error message can be seen here. And this is the /etc/hive/conf/hive-site.xml

Any help or idea how to solve that? I guess it's a pretty common error. But I couldn't find any solution, yet.

One more thing: is there a way to dump such long error messages into a separate log-file?

0 投票
2 回答
2703 浏览

hadoop - 色调配置错误 -/etc/hue/conf.empty - 检测到潜在的错误配置

位于 /etc/hue/conf.empty 的配置文件

嗨专家,

我是 Hadoop、linux 环境和 Cloudera 的新手。我在我的机器上安装了 cloudera vm 5.7,并使用 SQOOP 将 mysql 数据导入到 hdfs。我正在尝试使用 impala 对这些数据执行一些查询。所以,我尝试启动 HUE。当我启动时,我可以看到有一些配置错误。

错误:

检测到潜在的错误配置。修复并重新启动 Hue。

我为解决此问题而采取的步骤

1)我使用以下命令重新启动 HUE:

须藤服务色相停止

须藤服务色调开始

2)我尝试查看以下目录文件 ./etc/hue - 我可以看到有两个配置文件夹。一个是 config,另一个在 config.empty。我无法弄清楚问题所在。

但我仍然面临同样的问题。

0 投票
1 回答
3289 浏览

apache-spark - 由于任务积压而请求执行者

我有一个 spark 流应用程序,它运行得非常好,直到昨天,突然遇到这些警告。我有相同的环境并使用相同的代码。以下是警告:

05/09 17:13:03 INFO ExecutorAllocationManager:请求 16 个新执行器,因为任务积压(新的期望总数为 31) 16/05/09 17:13:03 INFO ExecutorAllocationManager:请求 19 个新执行器,因为任务积压(新所需的总数为 50)

16/05/09 17:13:12 WARN YarnScheduler:初始作业未接受任何资源;检查您的集群 UI 以确保工作人员已注册并拥有足够的资源

16/05/09 17:13:27 WARN YarnScheduler: Initial job 没有接受任何资源;检查您的集群 UI 以确保工作人员已注册并拥有足够的资源

我在 cloudera 5.5 上使用 apache spark 1.6。快速启动虚拟机。集群上没有运行应用程序来消耗可用资源。

有什么配置可以做吗?

谢谢!

0 投票
1 回答
140 浏览

sbt - 在 Cloudera 快速入门上运行 Kafka 时出错:程序集包依赖项无效

我已经从 apache 下载了 Kafka 并将其解压缩到它自己的文件夹中。在快速入门之后,我还安装了 sbt,但在 sbt 命令的第三行(我从 kafka 文件夹内部启动终端,我得到:

我整天都在寻找答案,但没有找到可以启动我的服务器的答案。我尝试 kafka-server-start.sh 时的异常总是

我第一次也尝试了“gradle”,但问题是一样的。我没有机会升级到 Cloudera-Express 以使用包裹安装程序:我的电脑不够好,无法支持它。
我很绝望:请帮助我!

0 投票
1 回答
690 浏览

hive - 如何通过java代码检查hive、Impala等cloudera服务是否正在运行?

我想运行一些配置单元查询,然后需要收集不同的指标,如 hdfs 字节读/写。为此,我编写了 java 代码。但在运行代码之前,我只想检查 hive、impala、yarn 等 cloudera 服务是否正在运行。如果正在运行,则代码需要执行,否则只需退出。有没有办法通过java代码检查服务的状态?

0 投票
0 回答
229 浏览

apache-spark - 我无法以编程方式访问在 vmware 中运行的 CDH 5.7 映像中的文件

我有一个 vmware cloudera 映像,使用 centos6.8 运行的 cdh-5.7,我使用 OS X 作为我的开发机器,以及运行代码的 cdh 映像。

更新

这是我目前正在使用的 build.sbt,我刚刚将 spark 版本从官方(1.6.1)更新到 1.6.0-cdh5.7.0:

这是我位于 cdh 映像中的 /etc/hosts 文件,其中包含如下一行:

我正在运行的 cloudera 版本是:

我可以在 vmware 机器上执行 ls 命令:

我可以阅读它的内容:

代码很简单,只是试图映射它的内容:

我收到这条消息:

为什么它在 spark-shell 中运行良好,但没有在 vmware 映像中以编程方式运行?

更新

我正在使用 sbt-pack 插件运行代码以生成 unix 命令并在具有 spark 伪集群的 vmware 映像中运行它们,

这是我用来实例化 sparkconf 的代码:

我认为这一定是cloudera配置文件中的错误配置,但是哪个?

更新 2 06/01/2016

好的,更改 ip (192.168.30.139) 而不是完全限定名称 (quickstart.cloudera) 现在消除了之前的异常,但现在出现了这个警告:

如果我运行下一个命令:

我可以看到 spark-master 和 spark-worker 正在运行,但是当我检查 192.168.30.139:18081 时,检查 spark-worker 状态的网页,我看到:

我不知道该怎么做,我已经为 vmware 映像增加了尽可能多的资源,并且发生了同样的错误......

非常感谢您阅读到这里。