我正在使用 DistCp 将数据从集群 1 复制到集群 2。我成功地将表数据从集群 1 复制到集群 2。但是,使用 hdfs,数据已发送到文件浏览器。
是否有任何直接方法可以通过使用 DistCp 命令将此 hdfs 数据转换为 Hive 表(包括数据类型、分隔符...等)?我当然可以查询它以从 hdfs 收集数据,但是我必须将它们一一转换。试图寻找有效的方法来解决这个问题。谢谢!
例子:
hadoop distcp hdfs://nn1:8020/source/a hdfs://nn1:8020/source/b hdfs://nn2:8020/destination