我必须将一些 HDFS 文件从我的生产集群移动到开发集群。在根据文件修改时间移动到开发集群后,我必须测试对 HDFS 文件的一些操作。需要具有不同日期的文件才能在 dev 中对其进行测试。
我尝试使用 DISTCP,修改时间正在更新为当前时间。我使用我在这里找到的许多参数检查了 Distcp distcp version2 guide
有没有其他方法可以在不更改修改时间的情况下获取文件?或者我可以在将文件放入 hdfs 后手动更改修改时间吗?
提前致谢
我必须将一些 HDFS 文件从我的生产集群移动到开发集群。在根据文件修改时间移动到开发集群后,我必须测试对 HDFS 文件的一些操作。需要具有不同日期的文件才能在 dev 中对其进行测试。
我尝试使用 DISTCP,修改时间正在更新为当前时间。我使用我在这里找到的许多参数检查了 Distcp distcp version2 guide
有没有其他方法可以在不更改修改时间的情况下获取文件?或者我可以在将文件放入 hdfs 后手动更改修改时间吗?
提前致谢
在命令中使用-pt
标志。hadoop distcp
这将p
保留t
distcp 文件的 imestamp(修改时间)。
hadoop distcp -pt hdfs://src_cluster/file hdfs://dest_cluster/file
用 Hadoop-2.7.3 测试
请参阅最新的 Distcp 指南