1

我是cloudera的新手,我在我的系统中成功安装了cloudera我有两个疑问,

  • 考虑一台具有一些节点的机器已经在使用带有一些数据的 hadoop,我们可以安装 Cloudera 以使用现有的 Hadoop,而不对存储的现有 hadooop 的数据进行任何更改或修改。

  • 我在我的机器上安装了 Cloudera,我有另外三台机器将它们添加为集群,我想知道,我想在将这些机器添加为集群之前在这三台机器中安装 cloudera 吗?或者我们可以在不安装的情况下添加一个节点作为集群cloudera 在那个特殊的节点上?

提前感谢任何人,请提供有关上述问题的一些信息。

4

3 回答 3

2

回答问题——

1 . 如果你想从现有的 Apache Distribution 迁移到 CDH,你可以点击这个链接

摘抄:

概述

迁移过程确实需要对 Linux 系统管理有一定的了解。你应该在开始之前制定一个计划。您将重新启动一些关键服务,例如名称节点和作业跟踪器,因此需要一些停机时间。考虑到集群上数据的价值,您还需要小心备份任何关键任务数据集以及名称节点元数据。

如果您要从基于 0.20 之前的 Apache Software Foundation 版本的 Hadoop 版本升级,备份您的数据是最重要的。

2 .CDH 二进制文件需要在所有节点中安装和配置,以使基于 CDH 的集群启动并运行。

于 2013-07-24T08:20:50.850 回答
1

来自Cloudera 手册

您可以使用并行复制数据的工具(例如 CDH4 中提供的 DistCp 工具)将数据从 CDH3 (或任何 Apache Hadoop)集群迁移到 CDH4 集群。

其他来源

关于你的第二个问题,

再次来自手册页

重要提示:在继续之前,您需要决定:

作为一般规则:NameNode 和 JobTracker 运行在同一个“master”主机上,除非集群很大(超过几十个节点),并且 master 主机(或主机)不应该运行 Secondary NameNode(如果使用)、DataNode 或 TaskTracker 服务。在大型集群中,辅助 NameNode(如果使用)在与 NameNode 不同的机器上运行尤为重要。除主控主机外,集群中的每个节点都应运行 DataNode 和 TaskTracker 服务。

此外,如果您使用 Cloudera Manager,它将自动完成所有必要的设置,即在集群中的节点上安装必要的选定组件。

题外话:我有一个不正确参考手册的坏习惯。看清楚它,它回答了我们所有的问题

于 2013-07-24T06:56:27.077 回答
0

回答你的第二个问题,你可以直接添加,安装几个先决条件,如 openssh-clients 和防火墙和 java。

这些机器(现有节点,新的三个节点)应该接受相同的用户名和密码(或者)你应该为这些主机设置无密码 ssh ..

您应该在添加节点时连接到互联网。

我希望它会帮助你:)

于 2015-11-30T13:17:07.517 回答