问题标签 [cloudera-manager]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - Hive queries not working when passing .hql file using -f hive option
I have a wired problem and have searched everywhere and can't seem to get an answer. I am running cloudera 4.6 on a single node and am using local mysql db for hive metastore database. I have many hive tables with data inside that I'm able to query using Apache HUE Hive UI. I can also run queries from command line intermittently getting a
FAILED: Error in metadata: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.metastore.HiveMetaStoreClient FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask
about half the time. When ever I try to pass .hql to hive like below I will get above error everytime.
I also see this error whenever I interact with HIVE via an oozie workflow. I originally had a postgresql local metastore db that was having similar errors.
Below is my hive-site.xml. Any help to get rid of this error would be greatly appreciated.
api - 通过 cloudera manager API 重启 jobtracker
我正在尝试通过 Cloudera Manager API 重新启动 Mapreduce Jobtracker。Jobtracker 的统计数据如下:
不知道如何使用 API 重新启动 Jobtracker ?
我尝试使用以下命令重新启动 Hive 服务,但出现了一些错误
如果有人帮助了解如何使用 Cloudera Manager API,我将不胜感激
hadoop - Namenode HA (UnknownHostException: nameservice1)
我们通过 Cloudera Manager 启用 Namenode 高可用性,使用
Cloudera Manager >> HDFS >> Action > Enable High Availability >> Selected Stand By Namenode & Journal Nodes Then nameservice1
一旦整个过程完成,然后部署客户端配置。
通过列出 HDFS 目录(hadoop fs -ls /)然后手动故障转移到备用名称节点并再次列出 HDFS 目录(hadoop fs -ls /)从客户端计算机进行测试。这个测试很完美。
但是当我使用以下命令运行 hadoop sleep 作业时,它失败了
我不知道为什么即使在部署客户端配置之后它也无法解析 nameservice1。
当我用谷歌搜索这个问题时,我发现这个问题只有一个解决方案
在配置条目中添加以下条目以修复问题 dfs.nameservices=nameservice1 dfs.ha.namenodes.nameservice1=namenode1,namenode2 dfs.namenode.rpc-address.nameservice1.namenode1=ip-10-118-137-215.ec2 .internal:8020 dfs.namenode.rpc-address.nameservice1.namenode2=ip-10-12-122-210.ec2.internal:8020 dfs.client.failover.proxy.provider.nameservice1=org.apache.hadoop.hdfs .server.namenode.ha.ConfiguredFailoverProxyProvider
我的印象是 Cloudera Manager 会处理它。我检查了客户端是否有此配置和配置(/var/run/cloudera-scm-agent/process/1998-deploy-client-config/hadoop-conf/hdfs-site.xml)。
还有一些配置文件的更多细节:
我怀疑 /etc/hadoop/conf.cloudera.hdfs1 和 /etc/hadoop/conf.cloudera.mapreduce1 中的旧配置存在问题,但不确定。
看起来 /etc/hadoop/conf/* 从未更新
有人对这个问题有任何想法吗?
hadoop - 将 HUE 服务移至不同的主机
我想使用 Cloudera Manager 将主机之间的 HUE 移动到我的集群中的另一个主机。
有可能的?
ldap - LDAP 与 Cloudera 色调集成
我已经在我的 ubuntu 12.04 中配置了 LDAP 服务器,安装在同一台服务器 Cloudera 核心 hadoop 服务中。在这里,我想将 cloudera hue 与 LDAP 服务器集成。
以下是我的 LDAP 用户
root@ip-10-81-160-152:/home/ubuntu# ldapsearch -x -b "dc=gmps,dc=com"
我使用 phpldapadmin 登录我的 LDAP 服务器,它工作正常..
我的登录 DN:cn=admin,dc=gmps,dc=com
我已在 Hue cloudera 中将此 ldap 服务器配置为
ldap_url : ldap://75.101.250.10
LDAP 用户名模式:“uid=admin,ou=admin,dc=greycampus,dc=com”
用户名属性:管理员
在此之后,我重新启动了 HUE,如果单击,我只是在那里登录了 HUE Web UI
色调 ---> 管理用户 ---> 同步 LDAP 用户和组 --> 同步
我没有从 LDAP 服务器获得任何用户 ..
如果我单击添加/同步 LDAP 用户 .. 然后输入用户名并确定 .. 我得到
与 LDAP 通信时出错
{'info': '无效的 DN', 'desc': '无效的 DN 语法'}
我不知道我在哪里做错了.. 我在哪里提供了我的 LDAP 密码仍然令人困惑.. 以及 Hue 如何在没有密码的情况下与 LDAP 通信.. 请任何人帮忙
python - 使用 python 2.7 时 cloudera-scm-agent 失败
不知道如何解决这个问题......在 cloudera-manager 网站上,它说他们的软件需要 pyhton2.6 或 python2.7
但是,当我尝试启动 cloudera-scm-agent 时,它抱怨说:
我正在运行 centos7(开箱即用不支持)。
更糟糕的是,我对 python 也一无所知(对不起)......所以如果我需要安装任何东西,请提供分步说明:-)
linux - 用于远程作业提交的典型 Hadoop 设置
所以我对 hadoop 还是有点陌生,目前正在 Amazonaws 上建立一个小型测试集群。所以我的问题与集群结构的一些技巧有关,因此可以从远程机器提交作业。
目前我有5台机器。4 基本上是具有 NameNodes、Yarn 等的 Hadoop 集群。一台机器用作管理器机器(Cloudera Manager)。我将描述我对设置的思考过程,如果有人能指出我不清楚的点,那就太好了。
我在想什么是小型集群的最佳设置。所以我决定只公开一台经理机器,并可能用它来通过它提交所有工作。其他机器将看到彼此等,但不能从外部世界访问。我对如何做到这一点有概念性的想法,但我不确定如何正确地做到这一点,如果有人能指出我正确的方向,那就太好了。
另一个重点是,我希望能够从客户端机器(可能是 Windows)通过暴露的机器向集群提交作业。我对这个设置也不是很清楚。我是否需要在机器上安装 Hadoop 才能使用正常的 hadoop 命令,并从 Eclipse 或类似的东西中编写/提交作业。
所以总结一下我的问题是,
- 对于小型测试集群来说,这是一个好的设置吗
- 如何在没有任何 Hadoop 节点的情况下使用一台暴露的机器将作业提交/路由到集群。
- 如何设置客户端计算机以将作业提交到远程集群,以及如何在 Windows 上执行此操作的示例。此外,如果有任何理由不在此设置中使用 Windows 作为客户端计算机。
谢谢,我将不胜感激任何建议或帮助。
hadoop - 在 CDH 4.7 中设置 share_jobs 的 hue.ini 的位置
我正在尝试将此处描述的 share_jobs 设置设置为false
.
这里的文档说要访问http://myserver:port/dump_config
以查找 HUE 配置的位置。对我来说,它给了/var/run/cloudera-scm-agent/process/73-hue-HUE_SERVER/
.
正如您可能猜到的那样,/var/run/
每次启动时都会重新创建目录,因此hue.ini
不会保存对目录的更改,并且似乎不会影响http://myserver:port/dump_config
.
我跑过去find / -name hue.ini
看看有没有hue.ini
要换的。它返回:
我已经更改了每个文件中的配置,但无济于事。hue.ini
我需要更改的具体在哪里?
我也一直在 Cloudera Manager 中寻找jobbrowser
配置中的部分,但我找不到它。
hadoop - Hadoop UI Web 界面
我有一个小问题。我需要将 Hadoop Web 界面与我们的 Web 应用程序集成。我只需要一个 Hadoop 接口,我们可以在其中运行一些 hadoop 命令,例如
为此需要一个网络界面。我已经安装了cloudera manager。我正在使用这个版本:Cloudera Enterprise Data Hub Edition Trial 5.1.1(#82 由 jenkins 在 20140725-1608 git 上构建:cb9ebb729efc7929e1968b23dc6cf776086e20a7)
我可以知道如何获得这个网络界面。我已经配置了 Oozie Web 控制台。
任何人请建议如何实现这个..
hadoop - Hadoop生态系统中的实时数据库
如果这是一个愚蠢的问题,请原谅我。
我在单个节点中安装了一个 cloudera 管理器。
我正在尝试使用 Hbase 和 Hadoop 在我的 Web 应用程序中记录请求和响应。
我正在尝试使用日志列出最新的用户活动。
使用下表结构添加行。
1 列族,RowId,11 列。我将每个值存储为字符串。相当简单且类似于 mysql 表。
现在,为了从我的 Hbase 中获取行,我使用
现在,我正在努力订购这个
entry:completeDate DESCENDING
分页或无限滚动限制为 25 行。
我的问题,
Hbase 是 Hadoop 生态系统中唯一可用的实时查询数据库吗?
我是否出于错误的原因使用 Hbase?我的表结构是否正确?
我在一家初创公司工作,这些是我们转向大数据的初步步骤。尽管 BigData 引起了很多炒作,但 Hadoop 对最新的 linux 的支持很差,而且看起来太复杂了。
任何帮助或建议将不胜感激。
非常感谢,
卡尔提克