hive - Hive 将分区添加到外部表慢

翻译自：https://stackoverflow.com/questions/48347234 2018-01-19T18:16:37.977

633 次

所以我需要为存储在 S3 上的一些数据创建一个外部表并显式添加分区（不幸的是，由于名称不匹配，目录层次结构不适合动态分区功能），例如：

 add partition for region:euwest1, year:2018, month:01, day:18, hour:18     at:s3://mybucket/mydata/euwest1/YYYY=2018/MM=01/dd=18/HH=18/

我在具有 Hive 2.3.2 和实例类型 r4.2xarge 的 EMR 集群上运行此程序，该集群具有 8 个 vCore 和 61GB 内存。完成添加一个分区大约需要 4 秒，这还不错，但是如果我们需要处理多天的数据，那么添加分区将需要很长时间。

有没有办法让这个过程更快？谢谢

0 回答 0