Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我从不同的提供商那里获得了很多不同格式的数据,我想每天将这些数据移动到一个通用格式的公共位置。所以,我应该每天复制大约 X TB 的数据。
我现在想避免任何转换,所以,我只想将 X TB 的数据从我的 HDFS 移动到我的 HDFS 中的另一个位置。这可能需要很长时间,有人知道我如何快速移动数据吗?我一直在考虑多线程,它可以工作吗?我会尝试让许多线程同时复制文件。现在,只有一条线。
试试 distcp,这是一个用于大型集群间/集群内复制的工具。
见http://hadoop.apache.org/docs/r0.19.0/distcp.html