0

将增量数据加载到 hive/impala 表中的最佳方法是什么?

我按照以下步骤操作,但未能成功。

  • 从 MR 程序中,输出已写入 HDFS 中的临时文件夹。
  • 定义了一个指向临时文件夹(MR的输出文件夹)的外部临时表
  • 将临时表中的加载语句添加到我的目标表中。
  • 删除临时表和 HDFS 中的临时文件夹。

当我按顺序运行 oozie 工作流程时,上述方法运行良好。当我同时调用多个作业时,它在加载数据时一直挂起。

我无法按顺序运行数据加载。任何有助于使其更有效的帮助,以便我可以运行将同时加载数据的并行作业。

4

1 回答 1

0

在我们的例子中,增量数据每次都会进入 Hive 表中的一个新分区。因此,在第 3 步(在上述步骤中),我们只需向表中添加一个新分区。

在多个工作流程并行工作的情况下,如果每个工作流程都将数据加载到新分区中,它应该可以正常工作。

于 2014-04-21T08:30:55.253 回答