问题标签 [cloudera-cdh]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - R 2.15.1;成熟度 0.73;CDH 5 - java.io.IOException:没有用于方案的文件系统:hdfs
我在 Debian 7 上安装了 CDH5。我在单节点伪分布式模式下使用 MapReduce1 使用 Hadoop。
我想在 R 中运行 Rhipe。下载后我已经安装了它:
然后我导出了环境变量:
运行 R 后:
我错过了什么?
系统中使用的Java:
hadoop - Sqoop 从 couchbase 导入到 hadoop
在 Ubuntu 上,使用 couchbase 2.5.1、cloudera cdh4、用于 couchbase 和 oracle jdk 6 的 hadoop 插件。一切都安装得很好(似乎),我可以独立使用 hadoop 和 couchbase 没有问题,但是当我尝试使用插件时,如下所示
我收到以下错误
知道我哪里出错了吗?或者我能做些什么来找出答案?
hadoop - 从 HDFS 中删除文件不会释放磁盘空间
将我们的小型 Cloudera Hadoop 集群升级到 CDH 5 后,删除文件不再释放可用存储空间。即使我们删除的数据多于添加的数据,文件系统也会不断填满。
集群设置
我们在物理专用硬件上运行一个四节点集群,总存储容量约为 110 TB。4 月 3 日,我们将 CDH 软件从 5.0.0-beta2 版本升级到 5.0.0-1 版本。
我们以前以大约 700 GB/天的速度将日志数据以纯文本格式放在 hdfs 上。在 4 月 1 日,我们改为将数据导入为 .gz 文件,这将每日摄取率降低到约 130 GB。
由于我们只想将数据保留到一定年龄,因此每晚都有删除过时文件的工作。这样做的结果过去在 hdfs 容量监控图表中是清晰可见的,但现在已经看不到了。
由于我们每天导入的数据比我们删除的数据少约 570 GB,人们预计使用的容量会下降。但是,自从集群软件升级以来,我们报告的 hdfs 使用量一直在不断增长。
问题描述
运行hdfs hadoop fs -du -h /
给出以下输出:
考虑到导入文件的大小,这与我们期望看到的一致。使用 3 的复制因子,这应该对应于大约 76.8 TB 的物理磁盘使用量。
相反,运行hdfs dfsadmin -report
结果不同:
在这里,DFS Used 报告为 99.24 TB,这是我们在监控图表中看到的。所有这些数据是从哪里来的?
我们尝试过的
我们首先怀疑的是垃圾的自动清空功能不起作用,但似乎并非如此。只有最近删除的文件在垃圾箱中,一天后它们会自动消失。
我们的问题似乎与执行 hdfs 元数据升级但未最终确定会发生的情况非常相似。我认为在这些版本之间进行升级时不需要这样做,但仍然“以防万一”执行了这两个步骤。
在本地文件系统的DN存储卷上,`previous/finalized'下有很多数据。我对 hdsf 的实现细节知之甚少,不知道这是否重要,但这可能表明最终确定的某些内容不同步。
我们很快就会用完集群上的磁盘空间,因此非常感谢任何帮助。
hadoop - 在 HDFS 中粉碎小文件
我们针对 CDH5 在 Mesos 0.17 上运行 Spark 0.9.1。到目前为止,我们一直在使用 CDH 系列的“mr1”版本,以便我们可以在较小的文件上运行filecrush项目。出于各种原因,我们希望能够自由升级到 MR-2。
在 Hadoop 的 map/reduce 之外是否存在任何工具来执行此操作?我们今天使用的 filecrush 库并不简单,因此将模式转换为 Spark 似乎并不简单。
hadoop - 无法在 hadoop 集群上运行作业。仅使用 LocalJobRunner 运行
我在 CDH5 Beta 2 上使用hadoop jar命令和以下命令提交了一个 MR 作业
我还尝试如下明确提供 fs 名称和作业跟踪器 url,但没有任何成功
作业成功运行,但使用LocalJobRunner而不是提交到集群。输出写入 HDFS 并且是正确的。不知道我在这里做错了什么,所以感谢您的意见。我也尝试过如下明确指定 fs 和作业跟踪器,但结果相同
驱动程序代码
hadoop - 在 Mac OS X 上设置 Hadoop 客户端
目前,我有使用 MRv1 运行 CDH 5.0 的 3 节点集群。我想弄清楚如何在我的 Mac 上设置 Hadoop。所以,我可以向集群提交作业。根据“在 CDH 5 中管理 Hadoop API 依赖项”,您只需要/usr/lib/hadoop/client-0.20/*
我是否也需要以下文件中的文件?Cloudera 有hadoop-client
tarball 吗?
cloudera-manager - 哪个版本的CDH使用Cloudera Manager自动安装JDK1.7?
我将 Cloudera Manager 与 CDH4.2.2 一起用于我的 3+1 集群。在使用 cloudera manager 开始安装时,它会自动下载并安装 JDK1.6。为了方便起见,我想将 JDK1.7 与 CDH 一起使用。是否有可能或者是否有任何版本的 CDH 在集群中安装 Hadoop 时会自动下载并安装并成功运行 JDK1.7 的 Hadoop?
如果是,我可以知道它是哪个版本的 CDH,我可以从哪里下载它?
我想使用 JDK1.7 而不是 1.6,因为我想在 CDH 上安装 Apache Giraph,但 Giraph 似乎不适合 JDK1.6,需要 JDK1.7。
带着敬意,
cloudera - Oozie Web 控制台工作非常缓慢
在我的集群中,Oozie Web 控制台非常慢。当我进入 Web 控制台时,将请求传递给 oozie 服务器需要 10 -15 秒,然后需要 10-15 秒才能发布从 oozie 服务器获得的结果。在 Hue 中也可以正常工作。
有没有人经历过这种情况?我在 CDH 4.4 和 CDH 5.0.0 beta2 中都遇到了这个问题。
我想oozie tomcat 战争文件中可能存在问题。有什么想法吗?
hadoop - 我对 hive 和 hadoop 的性能有何期待?
我实际上是在尝试使用带有 Yarn 的 CDH 5.0 上的 Hive 来实现 Hadoop 的解决方案。所以我的架构是: 1 Namenode 3 DataNode 我正在查询约 1.23 亿行 21 列
我的节点使用 2vCPU @2.27 和 8 GO RAM 进行虚拟化
所以我尝试了一些请求并得到了一些结果,然后我在具有相同数据集的基本 MySQL 中尝试了相同的请求,以便比较结果。
实际上 MySQL 比 Hive 快得多。所以我试图理解为什么。我知道我有一些糟糕的表现,因为我的主人。我的主要问题是:我的集群大小合适吗?
我是否需要为这么多数据添加相同的 DataNode(我认为这不是很大)?
如果有人尝试使用大致相同的架构提出一些请求,欢迎您与我分享您的结果。
谢谢 !
hadoop - 无法从主机 'namenode.tarun.com 连接到主机 'http://namenode.tarun.com:7432' 上的数据库
我在配置嵌入式数据库的数据库设置时安装了 cloudera manager 服务器。错误如下:
无法使用提供的凭据从主机“namenode.tarun.com”连接到主机“ http://namenode.tarun.com:7432 ”上的数据库
这是我的 db.mgmt.properties 我已更改它,因为它之前没有识别主机名。
登录为:root root@10.182.1.114 的密码:上次登录:Mon Apr 28 14:29:55 2014 from n1.tarun.com [root@namenode ~]# vi /etc/cloudera-scm-server/db.管理属性
20140424-144947
这些是“cloudera-scm-server-db”为 Cloudera Manager Management Services 创建的数据库的数据库凭据,如果采用嵌入式数据库路由,将在安装向导期间使用。
这些设置的真实来源是 Cloudera Manager 数据库,此处所做的更改不会自动反映在那里。
com.cloudera.cmf.ACTIVITYMONITOR.db.type=postgresql
com.cloudera.cmf.ACTIVITYMONITOR.db.host=http://namenode.tarun.com:7432
com.cloudera.cmf.ACTIVITYMONITOR.db.name=amon
com.cloudera.cmf.ACTIVITYMONITOR.db.user=amon
com.cloudera.cmf.ACTIVITYMONITOR.db.password=TDBw6Cjo7y
com.cloudera.cmf.REPORTSMANAGER.db.type=postgresql
com.cloudera.cmf.REPORTSMANAGER.db.host=http://namenode.tarun.com
com.cloudera.cmf.REPORTSMANAGER.db.name=rman
com.cloudera.cmf.REPORTSMANAGER.db.user=rman
com.cloudera.cmf.REPORTSMANAGER.db.password=computer1
com.cloudera.cmf.NAVIGATOR.db.type=postgresql
com.cloudera.cmf.NAVIGATOR.db.host=7432
com.cloudera.cmf.NAVIGATOR.db.name=nav
com.cloudera.cmf.NAVIGATOR.db.user=nav
com.cloudera.cmf.NAVIGATOR.db.password=MNWOjKZdVD
com.cloudera.cmf.ACTIVITYMONITOR.db.type=postgresql
com.cloudera.cmf.ACTIVITYMONITOR.db.host=http://namenode.tarun.com:7432
com.cloudera.cmf.ACTIVITYMONITOR.db.name=amon
com.cloudera.cmf.ACTIVITYMONITOR.db.user=amon
com.cloudera.cmf.ACTIVITYMONITOR.db.password=DBG22fU5Jr
com.cloudera.cmf.REPORTSMANAGER.db.type=postgresql
com.cloudera.cmf.REPORTSMANAGER.db.host=http://namenode.tarun.com
com.cloudera.cmf.REPORTSMANAGER.db.name=rman
com.cloudera.cmf.REPORTSMANAGER.db.user=rman
com.cloudera.cmf.REPORTSMANAGER.db.password=computer1
com.cloudera.cmf.NAVIGATOR.db.type=postgresql
com.cloudera.cmf.NAVIGATOR.db.host=:7432
com.cloudera.cmf.NAVIGATOR.db.name=nav
com.cloudera.cmf.NAVIGATOR.db.user=nav
com.cloudera.cmf.NAVIGATOR.db.password=a5gJFtI758