问题标签 [cloudera]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1819 浏览

hadoop - 为什么减少卡在 16%?

我有一个 map reduce 工作,我试图在一个相对较小的数据集上运行。我一直遇到一个问题,即减少工作一直卡在 16%。我的任务跟踪器的日志显示:

0 投票
1 回答
923 浏览

hadoop - 使用主机名安装 Hadoop 失败

我尝试安装hadoop单节点,

当我尝试在我的配置中使用 localhost 和我的 IP 地址时,我的 hadoop 运行良好。但是当我将 IP 地址更改为主机名时,出现错误。NameNode 和 JobTracker 无法运行。

我应该怎么办 ?

这是我的配置

这是我的 /etc/hosts

我只是将 localhost 更改为主机名“cloudera_master”,但它失败了。我尝试将主机添加到我的 /etc/hosts 但仍然失败

请帮帮我,

0 投票
0 回答
295 浏览

hadoop - Hadoop 版本 1.0.0 的最佳公共 Hadoop AMI

我试图找到一个好的公共 Hadoop AMI(1.0.0 或 1.0.1)但找不到。如果它默认包含PIG,那就更好了。看起来 Cloudera Hadoop 发行版似乎是我应该尝试的,但我不确定该使用什么。请指教。

0 投票
3 回答
5249 浏览

hadoop - 如何解决hadoop中的“文件只能复制到0个节点,而不是1个”?

我有一个简单的 hadoop 作业,它抓取网站并将它们缓存到 HDFS。映射器检查 HDFS 中是否已经存在 URL,如果存在,则使用它,否则下载页面并将其保存到 HDFS。

如果在下载页面时遇到网络错误(404 等),则 URL 将被完全跳过 - 不会写入 HDFS。每当我运行一个大约 1000 个网站的小列表时,我似乎总是遇到这个错误,它在我的伪分布式安装中反复使作业崩溃。可能是什么问题呢?

我正在运行 Hadoop 0.20.2-cdh3u3。

0 投票
0 回答
197 浏览

maven - 使用 Maven 构建后如何构建 Mahout /usr/lib 资源文件夹

我是这个东西的新手,所以我希望有人能提供帮助;

我想从源代码构建我自己的 Apache Mahout 安装。我有 Maven2.2.1。按照 Mahout wiki 上的说明,我能够查看代码 (Mahout-0.6-SNAPSHOT) 并使用 Maven 构建 Mahout。至少那是我认为在包含已签出的 src 代码的文件夹的根目录中的“mvn install”之后发生的。进行了测试,这需要一段时间。因此,我现在在 ~/.m2/repository 上的 Maven 存储库中拥有所有这些 jar(如果我没记错的话,称为工件)。

所以我现在的第一个问题是;当我在 redhat 上运行 RPM 时,我如何从这里获得一个“已安装”的包。我的意思是 /usr/lib/ 下的一个新文件夹,然后是 /lib 一个 /bin 等文件夹。

第二个问题是关于依赖 jar 的。我可以在存储库中看到 Mahout 是使用 hadoop-core-0.20.204.0.jar 构建的,但这不是我想要的 jar,因为我使用 Cloudera 的另一个 hadoop-core jar 运行 Hadoop 集群。我将如何使用正确的 hadoop-core jar 再次构建 Mahout?或者只是将一个hadoop-core jar换成另一个正在创建的/lib文件夹中的问题(在我的第一个问题得到回答之后)

谢谢

0 投票
1 回答
1016 浏览

sockets - 在 CentOS 上的 Hadoop 数据节点上打开套接字连接

我在我的 centos 6.2.64 机器上运行示例 hadoop 作业以进行调试,

并且似乎在作业完成后,与数据节点的连接仍然存在。

最终我在一段时间后在datanode日志中得到了这个错误。

这会导致生产系统出现问题,即 datanode 用尽 xcievers。这种行为似乎不会发生在我的 Ubuntu 开发盒上。我们将 cloudera hadoop-0.20.2-cdh3u3 用于我们的目的。

有解决此问题的任何指示吗?

0 投票
3 回答
16251 浏览

configuration - 如何针对远程集群运行 HBase shell

我在我的工作站上以伪分布式模式运行 HBase。我们还在集群上运行 HBase。使用 HBase shell,我想从我的工作站访问在集群上运行的 HBase 实例。我想在不登录其中一台集群机器的情况下执行此操作。

使用 Hadoop,您可以通过指定 -conf 参数并提供 hadoop-site.xml 的备用版本在远程集群上运行作业。HBase shell 是否有等价物?

我在我的工作站和集群机器上运行 cloudera cdh3u3。

0 投票
2 回答
143 浏览

hadoop - 使用 Cloudera 模拟 Map-reduce

我想使用 cloudera 在单台机器上模拟 Hadoop 作业(当然还有很多虚拟机)。我有 2 个问题 1)我可以更改 cloudera 中 HDFS 的复制策略吗?2) 我可以查看每个虚拟机的 cpu 使用率吗?

0 投票
1 回答
391 浏览

hadoop - 在hadoop Map-Reduce中,如何知道map任务结束或文件分割结束

hadoop 中的 map 任务处理输入文件的 64/128 MB 拆分。它从输入拆分的第一行开始处理直到结束。我需要了解如何知道地图任务何时完成处理其输入拆分。换句话说,在 shuffle 和 sort 开始之前。hadoop库中有什么方法可以回答我的问题吗?

0 投票
1 回答
198 浏览

hadoop - Can a mapper know how many mappers are running?

In a hadoop Map-Reduce framework, when an application is running, is it possible to know the number of workers running in the program. The number of workers is same as the number of file splits so in other words, is it possible to know the number of file splits dynamically?