0

我从不同的提供商那里获得了很多不同格式的数据,我想每天将这些数据移动到一个通用格式的公共位置。所以,我应该每天复制大约 X TB 的数据。

我现在想避免任何转换,所以,我只想将 X TB 的数据从我的 HDFS 移动到我的 HDFS 中的另一个位置。这可能需要很长时间,有人知道我如何快速移动数据吗?我一直在考虑多线程,它可以工作吗?我会尝试让许多线程同时复制文件。现在,只有一条线。

4

1 回答 1

0

试试 distcp,这是一个用于大型集群间/集群内复制的工具。

http://hadoop.apache.org/docs/r0.19.0/distcp.html

于 2013-10-31T08:43:09.210 回答