0

作为一个例子,考虑我有一个所有重大体育赛事发生的数据。下面给出的架构

事件名称、日期、月份、年份、城市

这些数据在 HDFS 中按年、日、月进行物理结构化。

现在我想根据其他一些列值创建虚拟分区,例如。城市。数据将仅以年、日、月结构物理存储在 HDFS 中,但我的元数据会跟踪虚拟分区。

Hive Metastore 可以为我做吗?

4

1 回答 1

0

我不认为它会发生。实际上,Hive 中的分区意味着为不同的分区创建不同的目录。Metastore 只包含表的元数据。它不会控制实际数据。从技术上讲,当我们基于 Hive 表中的分区列进行查询时,查询将仅在那个确切的分区目录上执行。因此,在不改变 hdfs 结构的情况下进行虚拟分区,真实数据将位于一个目录中,因此必须对整个数据执行查询。所以技术上的优化根本没有发生。

于 2018-04-18T19:02:34.610 回答