hadoop - Cloudera 安装有疑问吗？

Question

我是cloudera的新手，我在我的系统中成功安装了cloudera我有两个疑问，

考虑一台具有一些节点的机器已经在使用带有一些数据的 hadoop，我们可以安装 Cloudera 以使用现有的 Hadoop，而不对存储的现有 hadooop 的数据进行任何更改或修改。
我在我的机器上安装了 Cloudera，我有另外三台机器将它们添加为集群，我想知道，我想在将这些机器添加为集群之前在这三台机器中安装 cloudera 吗？或者我们可以在不安装的情况下添加一个节点作为集群cloudera 在那个特殊的节点上？

提前感谢任何人，请提供有关上述问题的一些信息。

score 2 · Accepted Answer

回答问题——

1 . 如果你想从现有的 Apache Distribution 迁移到 CDH，你可以点击这个链接

摘抄：

概述

迁移过程确实需要对 Linux 系统管理有一定的了解。你应该在开始之前制定一个计划。您将重新启动一些关键服务，例如名称节点和作业跟踪器，因此需要一些停机时间。考虑到集群上数据的价值，您还需要小心备份任何关键任务数据集以及名称节点元数据。

如果您要从基于 0.20 之前的 Apache Software Foundation 版本的 Hadoop 版本升级，备份您的数据是最重要的。

2 .CDH 二进制文件需要在所有节点中安装和配置，以使基于 CDH 的集群启动并运行。

score 1 · Accepted Answer

来自Cloudera 手册

您可以使用并行复制数据的工具（例如 CDH4 中提供的 DistCp 工具）将数据从 CDH3 （或任何 Apache Hadoop）集群迁移到 CDH4 集群。

其他来源

关于你的第二个问题，

再次来自手册页

重要提示：在继续之前，您需要决定：

作为一般规则：NameNode 和 JobTracker 运行在同一个“master”主机上，除非集群很大（超过几十个节点），并且 master 主机（或主机）不应该运行 Secondary NameNode（如果使用)、DataNode 或 TaskTracker 服务。在大型集群中，辅助 NameNode（如果使用）在与 NameNode 不同的机器上运行尤为重要。除主控主机外，集群中的每个节点都应运行 DataNode 和 TaskTracker 服务。

此外，如果您使用 Cloudera Manager，它将自动完成所有必要的设置，即在集群中的节点上安装必要的选定组件。

_{题外话：我有一个不正确参考手册的坏习惯。看清楚它，它回答了我们所有的问题}

score 0 · Accepted Answer

回答你的第二个问题，你可以直接添加，安装几个先决条件，如 openssh-clients 和防火墙和 java。

这些机器（现有节点，新的三个节点）应该接受相同的用户名和密码（或者）你应该为这些主机设置无密码 ssh ..

您应该在添加节点时连接到互联网。

我希望它会帮助你:)

hadoop - Cloudera 安装有疑问吗？

3 回答 3

Related

Reference