“cloudera-cdh”的相关标签问题

0 投票

1 回答

2257 浏览

java - R 2.15.1；成熟度 0.73；CDH 5 - java.io.IOException：没有用于方案的文件系统：hdfs

我在 Debian 7 上安装了 CDH5。我在单节点伪分布式模式下使用 MapReduce1 使用 Hadoop。

我想在 R 中运行 Rhipe。下载后我已经安装了它：

然后我导出了环境变量：

运行 R 后：

我错过了什么？

系统中使用的Java：

java r hadoop cloudera-cdh

2014-04-11T10:50:51.937

0 投票

2 回答

1265 浏览

hadoop - Sqoop 从 couchbase 导入到 hadoop

在 Ubuntu 上，使用 couchbase 2.5.1、cloudera cdh4、用于 couchbase 和 oracle jdk 6 的 hadoop 插件。一切都安装得很好（似乎），我可以独立使用 hadoop 和 couchbase 没有问题，但是当我尝试使用插件时，如下所示

我收到以下错误

知道我哪里出错了吗？或者我能做些什么来找出答案？

hadoop couchbase sqoop cloudera-cdh

2014-04-11T11:49:30.607

0 投票

1 回答

15188 浏览

hadoop - 从 HDFS 中删除文件不会释放磁盘空间

将我们的小型 Cloudera Hadoop 集群升级到 CDH 5 后，删除文件不再释放可用存储空间。即使我们删除的数据多于添加的数据，文件系统也会不断填满。

集群设置

我们在物理专用硬件上运行一个四节点集群，总存储容量约为 110 TB。4 月 3 日，我们将 CDH 软件从 5.0.0-beta2 版本升级到 5.0.0-1 版本。

我们以前以大约 700 GB/天的速度将日志数据以纯文本格式放在 hdfs 上。在 4 月 1 日，我们改为将数据导入为 .gz 文件，这将每日摄取率降低到约 130 GB。

由于我们只想将数据保留到一定年龄，因此每晚都有删除过时文件的工作。这样做的结果过去在 hdfs 容量监控图表中是清晰可见的，但现在已经看不到了。

由于我们每天导入的数据比我们删除的数据少约 570 GB，人们预计使用的容量会下降。但是，自从集群软件升级以来，我们报告的 hdfs 使用量一直在不断增长。

问题描述

运行hdfs hadoop fs -du -h /给出以下输出：

考虑到导入文件的大小，这与我们期望看到的一致。使用 3 的复制因子，这应该对应于大约 76.8 TB 的物理磁盘使用量。

相反，运行hdfs dfsadmin -report结果不同：

在这里，DFS Used 报告为 99.24 TB，这是我们在监控图表中看到的。所有这些数据是从哪里来的？

我们尝试过的

我们首先怀疑的是垃圾的自动清空功能不起作用，但似乎并非如此。只有最近删除的文件在垃圾箱中，一天后它们会自动消失。

我们的问题似乎与执行 hdfs 元数据升级但未最终确定会发生的情况非常相似。我认为在这些版本之间进行升级时不需要这样做，但仍然“以防万一”执行了这两个步骤。

在本地文件系统的DN存储卷上，`previous/finalized'下有很多数据。我对 hdsf 的实现细节知之甚少，不知道这是否重要，但这可能表明最终确定的某些内容不同步。

我们很快就会用完集群上的磁盘空间，因此非常感谢任何帮助。

hadoop hdfs cloudera-cdh

2014-04-14T10:52:17.590

0 投票

1 回答

824 浏览

hadoop - 在 HDFS 中粉碎小文件

我们针对 CDH5 在 Mesos 0.17 上运行 Spark 0.9.1。到目前为止，我们一直在使用 CDH 系列的“mr1”版本，以便我们可以在较小的文件上运行filecrush项目。出于各种原因，我们希望能够自由升级到 MR-2。

在 Hadoop 的 map/reduce 之外是否存在任何工具来执行此操作？我们今天使用的 filecrush 库并不简单，因此将模式转换为 Spark 似乎并不简单。

hadoop hdfs apache-spark cloudera-cdh

2014-04-16T02:57:08.780

0 投票

2 回答

5142 浏览

hadoop - 无法在 hadoop 集群上运行作业。仅使用 LocalJobRunner 运行

我在 CDH5 Beta 2 上使用hadoop jar命令和以下命令提交了一个 MR 作业

我还尝试如下明确提供 fs 名称和作业跟踪器 url，但没有任何成功

作业成功运行，但使用LocalJobRunner而不是提交到集群。输出写入 HDFS 并且是正确的。不知道我在这里做错了什么，所以感谢您的意见。我也尝试过如下明确指定 fs 和作业跟踪器，但结果相同

驱动程序代码

hadoop cloudera hadoop-yarn hadoop2 cloudera-cdh

2014-04-17T00:51:32.633

0 投票

1 回答

4659 浏览

hadoop - 在 Mac OS X 上设置 Hadoop 客户端

目前，我有使用 MRv1 运行 CDH 5.0 的 3 节点集群。我想弄清楚如何在我的 Mac 上设置 Hadoop。所以，我可以向集群提交作业。根据“在 CDH 5 中管理 Hadoop API 依赖项”，您只需要/usr/lib/hadoop/client-0.20/* 我是否也需要以下文件中的文件？Cloudera 有hadoop-clienttarball 吗？

hadoop osx-mavericks cloudera-cdh

2014-04-17T18:43:45.123

0 投票

1 回答

193 浏览

cloudera-manager - 哪个版本的CDH使用Cloudera Manager自动安装JDK1.7？

我将 Cloudera Manager 与 CDH4.2.2 一起用于我的 3+1 集群。在使用 cloudera manager 开始安装时，它会自动下载并安装 JDK1.6。为了方便起见，我想将 JDK1.7 与 CDH 一起使用。是否有可能或者是否有任何版本的 CDH 在集群中安装 Hadoop 时会自动下载并安装并成功运行 JDK1.7 的 Hadoop？

如果是，我可以知道它是哪个版本的 CDH，我可以从哪里下载它？

我想使用 JDK1.7 而不是 1.6，因为我想在 CDH 上安装 Apache Giraph，但 Giraph 似乎不适合 JDK1.6，需要 JDK1.7。

带着敬意，

cloudera-manager giraph cloudera-cdh

2014-04-22T09:42:59.007

0 投票

2 回答

769 浏览

cloudera - Oozie Web 控制台工作非常缓慢

在我的集群中，Oozie Web 控制台非常慢。当我进入 Web 控制台时，将请求传递给 oozie 服务器需要 10 -15 秒，然后需要 10-15 秒才能发布从 oozie 服务器获得的结果。在 Hue 中也可以正常工作。

有没有人经历过这种情况？我在 CDH 4.4 和 CDH 5.0.0 beta2 中都遇到了这个问题。

我想oozie tomcat 战争文件中可能存在问题。有什么想法吗？

cloudera oozie hue cloudera-cdh

2014-04-22T10:15:14.820

0 投票

1 回答

137 浏览

hadoop - 我对 hive 和 hadoop 的性能有何期待？

我实际上是在尝试使用带有 Yarn 的 CDH 5.0 上的 Hive 来实现 Hadoop 的解决方案。所以我的架构是： 1 Namenode 3 DataNode 我正在查询约 1.23 亿行 21 列

我的节点使用 2vCPU @2.27 和 8 GO RAM 进行虚拟化

所以我尝试了一些请求并得到了一些结果，然后我在具有相同数据集的基本 MySQL 中尝试了相同的请求，以便比较结果。

实际上 MySQL 比 Hive 快得多。所以我试图理解为什么。我知道我有一些糟糕的表现，因为我的主人。我的主要问题是：我的集群大小合适吗？

我是否需要为这么多数据添加相同的 DataNode（我认为这不是很大）？

如果有人尝试使用大致相同的架构提出一些请求，欢迎您与我分享您的结果。

谢谢！

hadoop hive cloudera-cdh

2014-04-28T08:36:18.693

0 投票

1 回答

984 浏览

hadoop - 无法从主机 'namenode.tarun.com 连接到主机 'http://namenode.tarun.com:7432' 上的数据库

我在配置嵌入式数据库的数据库设置时安装了 cloudera manager 服务器。错误如下：

无法使用提供的凭据从主机“namenode.tarun.com”连接到主机“ http://namenode.tarun.com:7432 ”上的数据库

这是我的 db.mgmt.properties 我已更改它，因为它之前没有识别主机名。

登录为：root root@10.182.1.114 的密码：上次登录：Mon Apr 28 14:29:55 2014 from n1.tarun.com [root@namenode ~]# vi /etc/cloudera-scm-server/db.管理属性

20140424-144947
这些是“cloudera-scm-server-db”为 Cloudera Manager Management Services 创建的数据库的数据库凭据，如果采用嵌入式数据库路由，将在安装向导期间使用。

这些设置的真实来源是 Cloudera Manager 数据库，此处所做的更改不会自动反映在那里。

com.cloudera.cmf.ACTIVITYMONITOR.db.type=postgresql com.cloudera.cmf.ACTIVITYMONITOR.db.host=http://namenode.tarun.com:7432 com.cloudera.cmf.ACTIVITYMONITOR.db.name=amon com.cloudera.cmf.ACTIVITYMONITOR.db.user=amon com.cloudera.cmf.ACTIVITYMONITOR.db.password=TDBw6Cjo7y com.cloudera.cmf.REPORTSMANAGER.db.type=postgresql com.cloudera.cmf.REPORTSMANAGER.db.host=http://namenode.tarun.com com.cloudera.cmf.REPORTSMANAGER.db.name=rman com.cloudera.cmf.REPORTSMANAGER.db.user=rman com.cloudera.cmf.REPORTSMANAGER.db.password=computer1 com.cloudera.cmf.NAVIGATOR.db.type=postgresql com.cloudera.cmf.NAVIGATOR.db.host=7432 com.cloudera.cmf.NAVIGATOR.db.name=nav com.cloudera.cmf.NAVIGATOR.db.user=nav com.cloudera.cmf.NAVIGATOR.db.password=MNWOjKZdVD com.cloudera.cmf.ACTIVITYMONITOR.db.type=postgresql com.cloudera.cmf.ACTIVITYMONITOR.db.host=http://namenode.tarun.com:7432 com.cloudera.cmf.ACTIVITYMONITOR.db.name=amon com.cloudera.cmf.ACTIVITYMONITOR.db.user=amon com.cloudera.cmf.ACTIVITYMONITOR.db.password=DBG22fU5Jr com.cloudera.cmf.REPORTSMANAGER.db.type=postgresql com.cloudera.cmf.REPORTSMANAGER.db.host=http://namenode.tarun.com com.cloudera.cmf.REPORTSMANAGER.db.name=rman com.cloudera.cmf.REPORTSMANAGER.db.user=rman com.cloudera.cmf.REPORTSMANAGER.db.password=computer1 com.cloudera.cmf.NAVIGATOR.db.type=postgresql com.cloudera.cmf.NAVIGATOR.db.host=:7432 com.cloudera.cmf.NAVIGATOR.db.name=nav com.cloudera.cmf.NAVIGATOR.db.user=nav com.cloudera.cmf.NAVIGATOR.db.password=a5gJFtI758

hadoop cloudera-manager cloudera-cdh

2014-04-28T14:46:30.980

问题标签 [cloudera-cdh]

集群设置

问题描述

我们尝试过的

Reference