我有两个蜂巢表,其中一个(表 A)取决于另一个(表 B)。我计划在表 B 中有数据后立即自动将数据加载到表 A 中。外部进程每天在表 B 中创建一个新分区,我计划监视分区的创建,然后触发将数据加载到表 B. 但是,一旦启动写入,hive 就会创建一个分区。但是,我想不出一种方法来监视分区上的写操作是否已完成。我想知道是否有处理这种情况的标准方法。
有一些可能的解决方法,但也有各自的缺点: 1. 监控 hdfs 中分区目录的更新时间戳,如果当前时间和更新时间之间的时间差超过某个阈值,则执行操作。2.跟踪分区中的记录数,一旦停止增加就执行操作。