我们有一个基于单个服务器上的单个节点的 Cloudera 5 安装。在集群上添加 2 个额外节点之前,我们希望使用新磁盘来增加分区的大小。
我们安装了以下服务:
- 具有 1 个 NodeManager 1 个 JobHistory 和 1 个 ResourceManager 的 yarn
- 具有 1 个数据节点、1 个主节点和 1 个辅助节点的 hdfs
- 具有 1 个主服务器和 1 个区域服务器的 hbase
- 带 1 台服务器的动物园管理员
所有数据当前都安装在一个分区上。将收集的数据数量增加了,因此我们需要使用另一个磁盘来存储所有信息。
所有数据都在挂载到文件夹 /dfs 的分区下
工作分区是:
df -h
hadoop-dfs-partition 119G 9.8G 103G 9% /dfs
df -i
hadoop-dfs-partition 7872512 18098 7854414 1% /dfs
该文件夹的内容如下:
drwxr-xr-x 11 根 4096 2014 年 5 月 8 日 dfs
drwx------。2 根 16384 2014 年 5 月 7 日 lost+found
drwxr-xr-x 5 根 4096 2014 年 5 月 8 日 yarn
在 dfs 下有这些文件夹:
drwx------ 3 hdfs hadoop 4096 2 月 23 日 18:14 dn
drwx------ 3 hdfs hadoop 4096 2 月 23 日 18:14 dn1
drwx------ 3 hdfs hadoop 4096 2 月 23 日 18:14 dn2
drwx------ 3 hdfs hadoop 4096 2 月 23 日 18:14 nn
drwx------ 3 hdfs hadoop 4096 2 月 23 日 18:14 nn1
drwx------ 3 hdfs hadoop 4096 2 月 23 日 18: 14 nn2
drwx------ 3 hdfs hadoop 4096 2 月 23 日 18:14 snn
drwx------ 3 hdfs hadoop 4096 2 月 23 日 18:14 snn1
drwx------ 3 hdfs hadoop 4096 18 年 2 月 23 日:14 snn2
在纱线下有这些文件夹:
drwxr-xr-x 9 纱线 hadoop 4096 11 月 9 日 15:46 nm
drwxr-xr-x 9 纱线 hadoop 4096 11 月 9 日 15:46 nm1
drwxr-xr-x 9 纱线 hadoop 4096 11 月 9 日 15:46 nm2
我们怎样才能做到这一点?我找到了使用 distcp 命令在集群之间迁移数据的唯一方法。
没有找到任何方法来移动原始数据。
在执行之前停止所有服务并关闭整个集群
cp -Rp /dfs/* /dfs-new/
命令是一个可行的选择?
(/dfs-new 在安装新磁盘的新 ext4 分区的文件夹中)
有更好的方法吗?
先感谢您