“cloudera-quickstart-vm”的相关标签问题

0 投票

1 回答

294 浏览

hadoop - Cloudera 中的 Hive 服务器快速入门

我正在尝试创建一个表单并使用 servlet 与 hive 的表连接。但我有一些疑问：

Hive 服务器是否安装在 cloudera 快速入门中？
servlet 是否需要 Tomcat 等其他服务器？
我必须在 IDE 中有库吗？或者也在其他地方？
是否可以通过表单启动 servlet 并在 cloudera 快速入门的导航器中显示数据？
JDBC 必须安装在我的本地主机还是虚拟机中？
我在哪里声明 XML？

2016-04-19T14:57:25.277

0 投票

0 回答

518 浏览

hadoop - Metastore 表中的直线和配置单元查询

我在 linux red hat 上有 cloudera quickstart 5.5。我尝试通过色调创建元存储表，但这些表也是在 hive1 而不是 hive2 中创建的。因此，当我通过蜂巢线进行查询时，查询和显示表有效，但直线（hive2）为空（显示表不显示显示）。如何通过色调或其他方式创建表格以便能够通过直线查询查询？谢谢。

hadoop hive hue cloudera-quickstart-vm

2016-04-20T10:42:53.957

0 投票

0 回答

1104 浏览

java - Hadoop-无法编译java类

我修改了一个名为的文件compile.sh，我完全更改了文件的路径.jar。这是 compile.sh 原始文件：

这是我修改后的compile.sh：

当我运行 compile.sh 时，出现以下错误：

我在相同的页面中发现我应该将 compile.sh 添加hadoop-mapreduce-client.jar到 compile.sh 中，但我hadoop-mapreduce-client.jar在我的版本中发现了很多CDH5.4。请帮我。

java hadoop cloudera-quickstart-vm

2016-04-22T17:43:32.847

0 投票

1 回答

1360 浏览

hadoop - 使用 distcp 将数据从 cloudera 集群复制到 google cloud hdfs 集群

我正在使用 cloudera 快速入门 vm。我昨天开始玩谷歌云平台。我正在尝试将 cloudera hdfs 中的数据复制到 1. google cloud storage (gs://bucket_name/) 2. google cloud hdfs cluster (使用 hdfs://google_cluster_namenode:8020/)

我按照本文中的说明设置了服务帐户身份验证并配置了我的 cloudera core-site.xml
/li>

工作正常。但是，我无法使用 distcp 复制到谷歌云存储。我收到以下错误。我知道这不是 URI 问题。还有什么我想念的吗？

我无法让 distcp 连接到 google cloud hdfs namenode；我收到“正在重试连接到服务器”。我找不到任何文档来配置 cloudera hdfs 集群和 google cloud hdfs 集群之间的连接。我假设服务帐户身份验证也应该与 google hdfs 一起使用。是否有可用于在集群之间设置副本的参考文档？我还缺少其他身份验证设置吗？

hadoop google-cloud-storage google-cloud-platform cloudera-cdh cloudera-quickstart-vm

2016-04-27T21:19:40.417

0 投票

2 回答

399 浏览

python - Exceptions when reading tutorial CSV file in the Cloudera VM

I'm trying to do a Spark tutorial that comes with the Cloudera Virtual Machine. But even though I'm using the correct line-ending encoding, I can not execute the scripts, because I get tons of errors. The tutorial is part of the Coursera Introduction to Big Data Analytics course. The assignment can be found here.

So here's what I did. Install the IPython shell (if not yet done):

Open/Start the shell (either with 1.2.0 or 1.4.0):

Set the line-endings to windows style. This is because the file is in windows-encoding and it's said in the course to do so. If you don't do this, you'll get other errors.

Trying to load the CSV file:

But getting a very long list of errors, which starts like this:

The full error message can be seen here. And this is the /etc/hive/conf/hive-site.xml

Any help or idea how to solve that? I guess it's a pretty common error. But I couldn't find any solution, yet.

One more thing: is there a way to dump such long error messages into a separate log-file?

python csv hadoop pyspark cloudera-quickstart-vm

2016-05-01T12:19:17.157

0 投票

2 回答

2703 浏览

hadoop - 色调配置错误 -/etc/hue/conf.empty - 检测到潜在的错误配置

位于 /etc/hue/conf.empty 的配置文件

嗨专家，

我是 Hadoop、linux 环境和 Cloudera 的新手。我在我的机器上安装了 cloudera vm 5.7，并使用 SQOOP 将 mysql 数据导入到 hdfs。我正在尝试使用 impala 对这些数据执行一些查询。所以，我尝试启动 HUE。当我启动时，我可以看到有一些配置错误。

错误：

检测到潜在的错误配置。修复并重新启动 Hue。

我为解决此问题而采取的步骤

1）我使用以下命令重新启动 HUE：

须藤服务色相停止

须藤服务色调开始

2）我尝试查看以下目录文件 ./etc/hue - 我可以看到有两个配置文件夹。一个是 config，另一个在 config.empty。我无法弄清楚问题所在。

但我仍然面临同样的问题。

hadoop cloudera hue cloudera-quickstart-vm

2016-05-08T09:26:03.053

0 投票

1 回答

3289 浏览

apache-spark - 由于任务积压而请求执行者

我有一个 spark 流应用程序，它运行得非常好，直到昨天，突然遇到这些警告。我有相同的环境并使用相同的代码。以下是警告：

05/09 17:13:03 INFO ExecutorAllocationManager：请求 16 个新执行器，因为任务积压（新的期望总数为 31） 16/05/09 17:13:03 INFO ExecutorAllocationManager：请求 19 个新执行器，因为任务积压（新所需的总数为 50）

16/05/09 17:13:12 WARN YarnScheduler：初始作业未接受任何资源；检查您的集群 UI 以确保工作人员已注册并拥有足够的资源

16/05/09 17:13:27 WARN YarnScheduler: Initial job 没有接受任何资源；检查您的集群 UI 以确保工作人员已注册并拥有足够的资源

我在 cloudera 5.5 上使用 apache spark 1.6。快速启动虚拟机。集群上没有运行应用程序来消耗可用资源。

有什么配置可以做吗？

谢谢！

apache-spark pyspark cloudera-quickstart-vm

2016-05-10T00:19:01.710

0 投票

1 回答

140 浏览

sbt - 在 Cloudera 快速入门上运行 Kafka 时出错：程序集包依赖项无效

我已经从 apache 下载了 Kafka 并将其解压缩到它自己的文件夹中。在快速入门之后，我还安装了 sbt，但在 sbt 命令的第三行（我从 kafka 文件夹内部启动终端，我得到：

我整天都在寻找答案，但没有找到可以启动我的服务器的答案。我尝试 kafka-server-start.sh 时的异常总是

我第一次也尝试了“gradle”，但问题是一样的。我没有机会升级到 Cloudera-Express 以使用包裹安装程序：我的电脑不够好，无法支持它。
我很绝望：请帮助我！

sbt apache-kafka sbt-assembly cloudera-quickstart-vm

2016-05-16T14:41:26.253

0 投票

1 回答

690 浏览

hive - 如何通过java代码检查hive、Impala等cloudera服务是否正在运行？

我想运行一些配置单元查询，然后需要收集不同的指标，如 hdfs 字节读/写。为此，我编写了 java 代码。但在运行代码之前，我只想检查 hive、impala、yarn 等 cloudera 服务是否正在运行。如果正在运行，则代码需要执行，否则只需退出。有没有办法通过java代码检查服务的状态？

hive hadoop-yarn impala cloudera-quickstart-vm

2016-05-19T10:46:58.927

0 投票

0 回答

229 浏览

apache-spark - 我无法以编程方式访问在 vmware 中运行的 CDH 5.7 映像中的文件

我有一个 vmware cloudera 映像，使用 centos6.8 运行的 cdh-5.7，我使用 OS X 作为我的开发机器，以及运行代码的 cdh 映像。

更新

这是我目前正在使用的 build.sbt，我刚刚将 spark 版本从官方（1.6.1）更新到 1.6.0-cdh5.7.0：

这是我位于 cdh 映像中的 /etc/hosts 文件，其中包含如下一行：

我正在运行的 cloudera 版本是：

我可以在 vmware 机器上执行 ls 命令：

我可以阅读它的内容：

代码很简单，只是试图映射它的内容：

我收到这条消息：

为什么它在 spark-shell 中运行良好，但没有在 vmware 映像中以编程方式运行？

更新

我正在使用 sbt-pack 插件运行代码以生成 unix 命令并在具有 spark 伪集群的 vmware 映像中运行它们，

这是我用来实例化 sparkconf 的代码：

我认为这一定是cloudera配置文件中的错误配置，但是哪个？

更新 2 06/01/2016

好的，更改 ip (192.168.30.139) 而不是完全限定名称 (quickstart.cloudera) 现在消除了之前的异常，但现在出现了这个警告：

如果我运行下一个命令：

我可以看到 spark-master 和 spark-worker 正在运行，但是当我检查 192.168.30.139:18081 时，检查 spark-worker 状态的网页，我看到：

我不知道该怎么做，我已经为 vmware 映像增加了尽可能多的资源，并且发生了同样的错误......

非常感谢您阅读到这里。

apache-spark hdfs cloudera-quickstart-vm

2016-05-30T11:14:03.313

问题标签 [cloudera-quickstart-vm]

Reference