将增量数据加载到 hive/impala 表中的最佳方法是什么?
我按照以下步骤操作,但未能成功。
- 从 MR 程序中,输出已写入 HDFS 中的临时文件夹。
- 定义了一个指向临时文件夹(MR的输出文件夹)的外部临时表
- 将临时表中的加载语句添加到我的目标表中。
- 删除临时表和 HDFS 中的临时文件夹。
当我按顺序运行 oozie 工作流程时,上述方法运行良好。当我同时调用多个作业时,它在加载数据时一直挂起。
我无法按顺序运行数据加载。任何有助于使其更有效的帮助,以便我可以运行将同时加载数据的并行作业。