hadoop - (HDFS) 如何在集群内安全地复制大数据？

Question

我必须制作大样本数据（比如 1TB）并拥有大约 20GB 的文本文件。

所以我尝试复制 50 次以使其更大，但是每次我尝试 hadoop fs -cp 命令时，我的一些数据节点都会死掉。

我听说在 UNIX 中，当删除大数据时，可以使用 SHRINK 安全地从磁盘中删除数据。hadoop中是否有类似的东西来复制大数据？

简而言之，有什么方法可以在 hadoop 集群中安全地复制大数据？

还是我必须修改一些配置文件？

score 0 · Accepted Answer

尝试distcp。它在后台运行 MR 作业以复制数据，使我们能够利用 Hadoop 提供的并行性。

1 回答 1