所以我需要为存储在 S3 上的一些数据创建一个外部表并显式添加分区(不幸的是,由于名称不匹配,目录层次结构不适合动态分区功能),例如:
add partition for region:euwest1, year:2018, month:01, day:18, hour:18 at:s3://mybucket/mydata/euwest1/YYYY=2018/MM=01/dd=18/HH=18/
我在具有 Hive 2.3.2 和实例类型 r4.2xarge 的 EMR 集群上运行此程序,该集群具有 8 个 vCore 和 61GB 内存。完成添加一个分区大约需要 4 秒,这还不错,但是如果我们需要处理多天的数据,那么添加分区将需要很长时间。
有没有办法让这个过程更快?谢谢