我有一个外部表,它从 HDFS 位置 (/user/hive/warehouse/tableX) 的所有文件中读取数据,并在 Hive 中创建了一个外部表。
现在,让我们假设对数据进行了一些预分区,并且所有以前的文件都以特定的命名约定 < dir_name >_< incNumber > 分布在几个目录中,例如
/user/hive/warehouse/split/
./dir_1/files...
./dir_2/files...
./dir_n/files...
如何创建另一个外部表来跟踪拆分文件夹中的所有文件?
我是否需要创建一个在每个子文件夹 (dir_x) 上分区的外部表?
同样为此,是否需要某种可以为每个子目录创建/添加分区的 Hive 或 shell 脚本?