1

我正在使用 DistCp 将数据从集群 1 复制到集群 2。我成功地将表数据从集群 1 复制到集群 2。但是,使用 hdfs,数据已发送到文件浏览器。

是否有任何直接方法可以通过使用 DistCp 命令将此 hdfs 数据转换为 Hive 表(包括数据类型、分隔符...等)?我当然可以查询它以从 hdfs 收集数据,但是我必须将它们一一转换。试图寻找有效的方法来解决这个问题。谢谢!

例子:

hadoop distcp hdfs://nn1:8020/source/a hdfs://nn1:8020/source/b hdfs://nn2:8020/destination
4

1 回答 1

3

还没有找到可以直接使用 DistCp 复制表的文档。但是,如果有人正在寻找类似的情况,他们可以使用。为我工作。

--hive
export table <<<table_name>>> to '<<<hdfs path>>>';

#bash/shell
hadoop distcp source desitination 

--hive
import table <<<table_name>> from '<<<hdfs>>>';
于 2015-10-30T12:46:12.477 回答