问题标签 [cloudera-cdh]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hive - Cloudera CDH 4.6.0 - Hive Metastore 服务未启动
我安装Cloudera CDH 4.6.0
在我的Centos 6.2
linux 服务器机器上(Cloudera manager - 4.8)。我能够启动一些服务,但无法启动 Hive Metastore 服务。
Cloudera 使用 Postgre SQL 作为远程元数据库。我的主机名是delvmpll2
,但是在启动 Hive 服务时,它是给java.net.UnknownHostException: localhost.localdomain
.
我编辑了主机名hive-site.xml
并重新启动了所有服务,但仍然会出现同样的异常。我找不到 cloudera 选择这个主机名的地方。
有人可以让我知道出了什么问题。
这是例外
提前致谢
java - Hbase java客户端批处理/在cdh 4.6上放慢
我正在使用 HBase 存储由 CDH4(当前为 4.5)管理的应用程序日志,升级到 cdh 4.6(与 4.7 相同)后,插入速度非常慢。我发现客户端正在连接到 regionserver 并立即关闭连接(使用 CDh 4.5 我没有遇到同样的问题)
区域服务器日志:
客户端连接类:
进口:
hbase - HBase-添加列时重复值
我正在尝试在 HBase 中存储一些位置(纬度、经度)值。每次我从键值对的 HashMap 中获得一个新值时,我决定添加一列。我的 HashMap 如下所示:
{lat:43.7719802, lon:-79.5008048} (Hashmap 的示例 JSON 表示)
这是我的代码:
但是当我想检索值时,它们是冗余存储的。我的意思是,对于每个值,它们在一个单元格中多次粘合在一起,如下所示:-79.5008048-79.5008048-79.5008048
我在我的代码中使用 HBase 0.94.15-cdh4.7.0 库。
有人知道解决这个问题的线索吗?
centos - 任何人都可以在一台笔记本电脑上配置 MULTI VM 集群吗?
有没有人能够在 1 台笔记本电脑上配置 2(或 3)节点 3 CDH 4.1 集群。
笔记本电脑通过 WiFi 连接到互联网,并且虚拟机(VirtualBox、CentOS7)被配置为使用桥接网络。每个虚拟机都有一个专用的 IP 地址,它们可以相互 ping 通,它们可以 ping 主机,它们可以连接到 Internet。
我使用这些命令安装了软件
你可以看到我已经禁用了防火墙。但是在 zookeeper.log 我可以看到
不知何故,我有一种感觉,CDH不能以这种方式安装,特别需要一个有路由器和局域网等的企业设置。
有没有人能够在一台笔记本电脑和 2 台虚拟机上安装 CDH 4.1?你能启动zookeeper服务器吗?
请帮帮我。
sql - 在 Impala SQL 中使用 GROUP BY 进行 ORDER BY
作为一个研究项目,我决定通过设置整个 CDH5 环境来使用 Cloudera Impala。然后我决定使用查询数据。由于某种原因,简单的 ORDER BY 不适用于在 Impala SQL 中使用的 GROUP BY 语句。Impala 是否支持此功能?
这是我的查询在没有排序的情况下的样子:
结果:
现在以下查询不起作用:
结果:
解释显示如下:
对此有什么想法吗?
java - 如何将外部 lib jar 传递到 java 主类?
例如,我在一个应用程序中有两个不同的主类,所以我编写了另一个主类来允许用户选择一个主类进行调用,效果很好。
但是,对于其中一个主要类,我们需要传入一个外部 -libjars 参数。这就是我的问题所在。因为我是从另一个应用程序调用应用程序,所以我无法传递参数。您知道如何根据用户偏好将附加参数传递给 JVM。
例如:
主要应用:
选择一个应用程序:
1) 应用程序 1 2) 应用程序 2
我们不需要为应用程序 1 传递额外的参数,所以可以,但是对于应用程序 2,我们需要传入 -libjar /../../some.jar (此参数不在应用程序中使用,它用于集群JVM)
我该怎么做呢?
如果我要单独调用这两个应用程序,那么我会这样做:
对于应用程序1:
纱线罐 test.jar app1Main
对于应用 2:
yarn jar test.jar app2Main -libjars /../../some.jar
json - Pig : result of json loader empty
I'm using cdh5 quickstart vm and I have a file like this(not full here):
and I used this script:
the script works , but the generated file is empty, do you have any idea?
api - 通过 cloudera manager API 重启 jobtracker
我正在尝试通过 Cloudera Manager API 重新启动 Mapreduce Jobtracker。Jobtracker 的统计数据如下:
不知道如何使用 API 重新启动 Jobtracker ?
我尝试使用以下命令重新启动 Hive 服务,但出现了一些错误
如果有人帮助了解如何使用 Cloudera Manager API,我将不胜感激
hadoop - Namenode HA (UnknownHostException: nameservice1)
我们通过 Cloudera Manager 启用 Namenode 高可用性,使用
Cloudera Manager >> HDFS >> Action > Enable High Availability >> Selected Stand By Namenode & Journal Nodes Then nameservice1
一旦整个过程完成,然后部署客户端配置。
通过列出 HDFS 目录(hadoop fs -ls /)然后手动故障转移到备用名称节点并再次列出 HDFS 目录(hadoop fs -ls /)从客户端计算机进行测试。这个测试很完美。
但是当我使用以下命令运行 hadoop sleep 作业时,它失败了
我不知道为什么即使在部署客户端配置之后它也无法解析 nameservice1。
当我用谷歌搜索这个问题时,我发现这个问题只有一个解决方案
在配置条目中添加以下条目以修复问题 dfs.nameservices=nameservice1 dfs.ha.namenodes.nameservice1=namenode1,namenode2 dfs.namenode.rpc-address.nameservice1.namenode1=ip-10-118-137-215.ec2 .internal:8020 dfs.namenode.rpc-address.nameservice1.namenode2=ip-10-12-122-210.ec2.internal:8020 dfs.client.failover.proxy.provider.nameservice1=org.apache.hadoop.hdfs .server.namenode.ha.ConfiguredFailoverProxyProvider
我的印象是 Cloudera Manager 会处理它。我检查了客户端是否有此配置和配置(/var/run/cloudera-scm-agent/process/1998-deploy-client-config/hadoop-conf/hdfs-site.xml)。
还有一些配置文件的更多细节:
我怀疑 /etc/hadoop/conf.cloudera.hdfs1 和 /etc/hadoop/conf.cloudera.mapreduce1 中的旧配置存在问题,但不确定。
看起来 /etc/hadoop/conf/* 从未更新
有人对这个问题有任何想法吗?
hadoop - 如何让 hbase 区域服务器监听 0.0.0.0?
我的 Hbase 区域服务器正在监听 127.0.0.1。如何让它在 0.0.0.0 上列出?我尝试了 hbase.regionserver.info.bindAddress 的 channing 值,但这似乎不起作用。