1

我正在开发用于大数据处理的 Azure HDInsight 集群。几天前,我通过合并许多文件在 hive 中创建了一个分区和桶表。

由于 Azure 没有提供任何停止集群的选项,因此我不得不删除集群以节省成本。数据独立存储在 Azure 存储帐户中。当我使用相同的存储帐户创建新集群时,我可以使用 HDFS 命令查看数据库和表,但 hive 无法读取该数据库或表,也许 hive 没有关于它的元数据。

我剩下的唯一选择是将所有这些分区和分桶文件合并到一个文件中,然后再次创建表。那么有什么方法可以将该表迁移到另一个数据库或合并它以便更容易迁移?

4

1 回答 1

0

您可以创建一个EXTERNAL TABLE(具有与以前相同的属性)指向该HDFS location. 既然你提到它有分区,你可以运行MSCK REPAIR TABLE table-name,这样你也可以看到分区。

希望这可以帮助

于 2019-11-02T12:16:39.370 回答