0

我是 Informatica BDM 的新手。我有一个用例,我必须每天将数据从 RDBMS 增量(100 个表)导入 Hive。有人可以用最好的方法指导我实现这一目标吗?

谢谢, 苏米特

4

1 回答 1

0

Hadoop 是一次写入多次读取 (WORM) 方法,增量负载并非易事。您可以遵循以下指南并验证您当前的要求

  1. 如果表是小型/中型并且没有太多记录,最好刷新整个表
  2. 如果表太大,增量负载有add/update/delete操作,可以考虑staging delta,执行join操作重新创建数据集。
  3. 对于大表和大增量,您可以为所有最新记录创建一个版本号,每个增量可能会来到一个新目录,并且应该创建一个视图以获取最新版本以进行进一步处理。这避免了繁重的合并操作。

如果删除操作没有作为更改出现,那么您还需要考虑如何对其采取行动,在这种情况下,您需要完全刷新。

于 2018-12-22T13:29:21.787 回答