问题标签 [cloudera]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Hadoop:配置对象时出错
我正在尝试运行 Terasort 基准测试,但出现以下异常:
TeraGen 命令运行良好,并为 TeraSort 创建了输入文件。这是我的输入目录的列表:
这是我运行 terasort 的命令:
我确实在输入目录中看到了文件 _partition.lst,但我不明白为什么会收到 FileNotFoundException。
我遵循了以下提供的设置详细信息:http: //www.michael-noll.com/blog/2011/04/09/benchmarking-and-stress-testing-an-hadoop-cluster-with-terasort-testdfsio-nnbench-先生台/
hadoop - Cloudera cdh3u2 的 LZO
带着一些困惑,我在 cloudera 上阅读了 cloudera 关于 lzo 的博客文章。由于某些许可 bs,lzo 压缩不是标准 hadoop 的一部分,好的。但是,是什么阻止 cloudera 将其作为其发行版的一部分呢?或者发生过这种情况?
简而言之,如何在 cloudera cdh3u2 上进行 lzo 压缩?
hadoop - 如何在 Mac OS X Lion 上安装 Cloudera Hue?
有没有人试过这个?谷歌出现了一个完全空白,到目前为止这是一个艰巨的过程(我很新,蚂蚁等)。
在下载了大量依赖项之后,坦率地说,一些不明智的使用“ln -s”和大量的“sudo”......我终于遇到了一个我无法克服的错误。
我在 Mac OS X 10.7.2 (Lion) 上运行 Hadoop CDH3 (hadoop-0.20.2-cdh3u2),Hue 1.2.0。
任何帮助将不胜感激 - 提前非常感谢。
hadoop - 在Hadoop中如何处理每天增加的数据
在 Hadoop 中如何处理每天增加的数据:
例如:
第一天我可能在某个输入文件夹中有 100 万个文件(例如 hadoop/demo)
在同一文件夹中的第二天,文件可能会从现有的 100 万个文件 + 另一个新的 100 万个文件增加,因此总共 200 万个。
同样是第 3 4 天...继续前进。
我的限制是 -> 第一天的文件不应该在第二天处理。
(ie) 当新文件与它们一起添加时,不应再次处理已经处理的文件。更具体地说,只应处理新添加的文件,而应忽略旧文件。
所以请帮助我解决这个问题。
不过,如果您不了解约束条件,请说出不清楚的地方,以便我可以详细说明我的约束条件!
python - 如何在 python 中导入 hbase?
我正在尝试在 python 中使用 hbase,并且我正在使用 cloudera 存储库来安装 hadoop/hbase 包。它似乎可以工作,因为我可以使用 shell 访问和处理数据库,但它不能在 python 中完全工作。
我知道要与 hbase 通信我需要 thrift,所以我从源代码下载并编译它,我可以将 thrift 导入 python,但是当我这样做时from hbase import Hbase
,我得到 module not found 错误。
有谁知道我需要什么包/模块才能让它工作?我试图环顾easy_install 和yum(我正在使用centos6),但没有运气。我确实找到了一篇文章,其中使用 debain 的人通过这样做安装了它sudo aptiutde install python-hbase
我没有那个命令/包,所以我不确定如何获取它(或者我是否必须从源代码编译才能获取它)。
另外,如果有帮助,我从 cloudera 安装了大部分基础,并按照http://yannramin.com/2008/07/19/using-facebook-thrift-with-python的一些说明(不需要安装的说明)-和-hbase/
任何帮助/提示/建议都会很棒。
谢谢!
maven - Maven - 测试中的不同依赖版本
我遇到了类似于Maven 2 的问题 - 测试和编译中的不同依赖版本,但那里的指定答案不起作用。
在我的项目中,我需要依赖 Hadoop 的 Cloudera 发行版和用于 JUnit 测试的“香草”版本,因为前者仅适用于 *nix。
当我尝试执行我的应用程序时,我得到Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/conf/Configuration
. 当我从 Maven 或 Eclipse 运行 JUnit 测试时,一切正常。如果我注释掉test
依赖项,应用程序就会成功运行。
为什么在取消注释依赖项compile
时会忽略test
依赖项?
mvn dependency:list
显示以下内容,它根本不显示compile
作用域版本:
ubuntu - 如何在我的系统上拥有类似 Amazon EC2 的环境?
我有这个其他人编码的 hadoop 项目(链接)。我有来源。我想在我的集群上实现这个(基本上是 3 台 ubuntu 机器)。但是提到的项目在 EC2 平台上工作(使用 Cloudera 发行版)。
那么,我应该在我的系统上安装什么才能让它拥有运行这样一个项目的软件?
我想到了 Cloudera Manager、Oracle Java。
connection - Cloudera CDH3 远程连接
我在 CentOS 6.2 上安装了开箱即用的 Cloudera CDH3。我可以在本地连接到 Cloudera Mananger(端口 7180)或 Hue(端口 8088),但无法远程连接。这是操作系统锁定端口吗?感谢您的帮助。
hadoop - 恢复 Hadoop NameNode 故障
场景一:
HDFS fsimage 和 editlog 被写入多个位置,包括 NFS 挂载。
A) NameNode Daemon Crash : 解决方法:重启Namenode进程即可
B) 主机在名称节点运行的地方关闭。
解决方案:
- 使用空的 dfs.name.dir 在不同的主机中启动名称节点
- 将 dfs.name.dir 指向我们拥有元数据副本的 NFS 挂载。或者
- 在将 fs.checkpoint.dir 指向辅助 NameNode 的检查点目录后,在启动 namenode 时使用 --importCheckpoint 选项
- 将 fs.default.name 更改为备份主机名 URI,并使用 slaves 文件中的所有从 IP 重新启动集群。
注意 - 我们可能会错过在最后一个检查点之后可能发生的编辑。
场景二:
HDFS fsimage 被写入单个目录。
A)NameNode 守护进程崩溃:解决方案:未知
B ) 主机在名称节点运行的地方关闭。
解决方案:
- 创建一个指向 dfs.name.dir 的空白目录到 (1) 中的目录
- 在将 fs.checkpoint.dir 从 Secondary NameNode 指向检查点目录后,使用 -importCheckpoint 启动 Namenode
- 将 fs.default.name 更改为备份主机名 URI,并使用 slaves 文件中的所有从 IP 重新启动集群。
这样我们会再次错过在最后一个检查点之后编辑的文件。
请让我知道这是否是我们可以手动恢复集群的方式。
hadoop - CDH3 Vmware镜像中的猪源代码
我正在使用 cloudera cdh3 vmware 映像从提示符运行 pig 脚本。我正在尝试查看来自 ubuntu 的源代码。我希望在源代码中添加一些运算符。所以,我想看看 POPackage.java、POLocalrearrange.java 等文件,有人可以在目录层次结构中指出图像上的源目录吗?就像我想导航到像 src/org/apache/pig/backend 这样的文件夹。这是可能的还是cloudera使用所有文件作为罐子?当我找到并没有找到任何文件时。谢谢