问题标签 [cloudera-quickstart-vm]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - Cloudera 中的 Hive 服务器快速入门
我正在尝试创建一个表单并使用 servlet 与 hive 的表连接。但我有一些疑问:
- Hive 服务器是否安装在 cloudera 快速入门中?
- servlet 是否需要 Tomcat 等其他服务器?
- 我必须在 IDE 中有库吗?或者也在其他地方?
- 是否可以通过表单启动 servlet 并在 cloudera 快速入门的导航器中显示数据?
- JDBC 必须安装在我的本地主机还是虚拟机中?
- 我在哪里声明 XML?
hadoop - Metastore 表中的直线和配置单元查询
我在 linux red hat 上有 cloudera quickstart 5.5。我尝试通过色调创建元存储表,但这些表也是在 hive1 而不是 hive2 中创建的。因此,当我通过蜂巢线进行查询时,查询和显示表有效,但直线(hive2)为空(显示表不显示显示)。如何通过色调或其他方式创建表格以便能够通过直线查询查询?谢谢。
java - Hadoop-无法编译java类
我修改了一个名为 的文件compile.sh
,我完全更改了文件的路径.jar
。这是 compile.sh 原始文件:
这是我修改后的compile.sh:
当我运行 compile.sh 时,出现以下错误:
我在相同的页面中发现我应该将 compile.sh 添加hadoop-mapreduce-client.jar
到 compile.sh 中,但我hadoop-mapreduce-client.jar
在我的版本中发现了很多CDH5.4
。请帮我。
hadoop - 使用 distcp 将数据从 cloudera 集群复制到 google cloud hdfs 集群
我正在使用 cloudera 快速入门 vm。我昨天开始玩谷歌云平台。我正在尝试将 cloudera hdfs 中的数据复制到 1. google cloud storage (gs://bucket_name/) 2. google cloud hdfs cluster (使用 hdfs://google_cluster_namenode:8020/)
我按照本文中的说明设置了服务帐户身份验证并配置了我的 cloudera core-site.xml
/li>
工作正常。但是,我无法使用 distcp 复制到谷歌云存储。我收到以下错误。我知道这不是 URI 问题。还有什么我想念的吗?
- 我无法让 distcp 连接到 google cloud hdfs namenode;我收到“正在重试连接到服务器”。我找不到任何文档来配置 cloudera hdfs 集群和 google cloud hdfs 集群之间的连接。我假设服务帐户身份验证也应该与 google hdfs 一起使用。是否有可用于在集群之间设置副本的参考文档?我还缺少其他身份验证设置吗?
python - Exceptions when reading tutorial CSV file in the Cloudera VM
I'm trying to do a Spark tutorial that comes with the Cloudera Virtual Machine. But even though I'm using the correct line-ending encoding, I can not execute the scripts, because I get tons of errors. The tutorial is part of the Coursera Introduction to Big Data Analytics course. The assignment can be found here.
So here's what I did. Install the IPython shell (if not yet done):
Open/Start the shell (either with 1.2.0 or 1.4.0):
Set the line-endings to windows style. This is because the file is in windows-encoding and it's said in the course to do so. If you don't do this, you'll get other errors.
Trying to load the CSV file:
But getting a very long list of errors, which starts like this:
The full error message can be seen here. And this is the /etc/hive/conf/hive-site.xml
Any help or idea how to solve that? I guess it's a pretty common error. But I couldn't find any solution, yet.
One more thing: is there a way to dump such long error messages into a separate log-file?
hadoop - 色调配置错误 -/etc/hue/conf.empty - 检测到潜在的错误配置
嗨专家,
我是 Hadoop、linux 环境和 Cloudera 的新手。我在我的机器上安装了 cloudera vm 5.7,并使用 SQOOP 将 mysql 数据导入到 hdfs。我正在尝试使用 impala 对这些数据执行一些查询。所以,我尝试启动 HUE。当我启动时,我可以看到有一些配置错误。
错误:
检测到潜在的错误配置。修复并重新启动 Hue。
我为解决此问题而采取的步骤
1)我使用以下命令重新启动 HUE:
须藤服务色相停止
须藤服务色调开始
2)我尝试查看以下目录文件 ./etc/hue - 我可以看到有两个配置文件夹。一个是 config,另一个在 config.empty。我无法弄清楚问题所在。
但我仍然面临同样的问题。
apache-spark - 由于任务积压而请求执行者
我有一个 spark 流应用程序,它运行得非常好,直到昨天,突然遇到这些警告。我有相同的环境并使用相同的代码。以下是警告:
05/09 17:13:03 INFO ExecutorAllocationManager:请求 16 个新执行器,因为任务积压(新的期望总数为 31) 16/05/09 17:13:03 INFO ExecutorAllocationManager:请求 19 个新执行器,因为任务积压(新所需的总数为 50)
16/05/09 17:13:12 WARN YarnScheduler:初始作业未接受任何资源;检查您的集群 UI 以确保工作人员已注册并拥有足够的资源
16/05/09 17:13:27 WARN YarnScheduler: Initial job 没有接受任何资源;检查您的集群 UI 以确保工作人员已注册并拥有足够的资源
我在 cloudera 5.5 上使用 apache spark 1.6。快速启动虚拟机。集群上没有运行应用程序来消耗可用资源。
有什么配置可以做吗?
谢谢!
sbt - 在 Cloudera 快速入门上运行 Kafka 时出错:程序集包依赖项无效
我已经从 apache 下载了 Kafka 并将其解压缩到它自己的文件夹中。在快速入门之后,我还安装了 sbt,但在 sbt 命令的第三行(我从 kafka 文件夹内部启动终端,我得到:
我整天都在寻找答案,但没有找到可以启动我的服务器的答案。我尝试 kafka-server-start.sh 时的异常总是
我第一次也尝试了“gradle”,但问题是一样的。我没有机会升级到 Cloudera-Express 以使用包裹安装程序:我的电脑不够好,无法支持它。
我很绝望:请帮助我!
hive - 如何通过java代码检查hive、Impala等cloudera服务是否正在运行?
我想运行一些配置单元查询,然后需要收集不同的指标,如 hdfs 字节读/写。为此,我编写了 java 代码。但在运行代码之前,我只想检查 hive、impala、yarn 等 cloudera 服务是否正在运行。如果正在运行,则代码需要执行,否则只需退出。有没有办法通过java代码检查服务的状态?
apache-spark - 我无法以编程方式访问在 vmware 中运行的 CDH 5.7 映像中的文件
我有一个 vmware cloudera 映像,使用 centos6.8 运行的 cdh-5.7,我使用 OS X 作为我的开发机器,以及运行代码的 cdh 映像。
更新
这是我目前正在使用的 build.sbt,我刚刚将 spark 版本从官方(1.6.1)更新到 1.6.0-cdh5.7.0:
这是我位于 cdh 映像中的 /etc/hosts 文件,其中包含如下一行:
我正在运行的 cloudera 版本是:
我可以在 vmware 机器上执行 ls 命令:
我可以阅读它的内容:
代码很简单,只是试图映射它的内容:
我收到这条消息:
为什么它在 spark-shell 中运行良好,但没有在 vmware 映像中以编程方式运行?
更新
我正在使用 sbt-pack 插件运行代码以生成 unix 命令并在具有 spark 伪集群的 vmware 映像中运行它们,
这是我用来实例化 sparkconf 的代码:
我认为这一定是cloudera配置文件中的错误配置,但是哪个?
更新 2 06/01/2016
好的,更改 ip (192.168.30.139) 而不是完全限定名称 (quickstart.cloudera) 现在消除了之前的异常,但现在出现了这个警告:
如果我运行下一个命令:
我可以看到 spark-master 和 spark-worker 正在运行,但是当我检查 192.168.30.139:18081 时,检查 spark-worker 状态的网页,我看到:
我不知道该怎么做,我已经为 vmware 映像增加了尽可能多的资源,并且发生了同样的错误......
非常感谢您阅读到这里。