我正在尝试将分区 Hive 表的数据从一个集群复制到另一个集群。我正在使用 distcp 复制数据,但底层数据的数据是分区配置单元表的。我使用了以下命令。
hadoop distcp -i {src} {tgt}
但是随着表被分区,目录结构是根据分区表创建的。所以它显示错误创建重复和中止作业。
org.apache.hadoop.toolsCopyListing$DulicateFileException: 文件会导致重复。中止
我也用过-skipcrccheck
-update
-overwrite
,但没有奏效。
如何将表的数据从分区文件路径复制到目标?