sqoop - 使用 Informatica BDM 的 Sqoop 增量负载

问问题 2018-12-20T03:39:39.407

234 次

0

我是 Informatica BDM 的新手。我有一个用例，我必须每天将数据从 RDBMS 增量（100 个表）导入 Hive。有人可以用最好的方法指导我实现这一目标吗？

谢谢，苏米特

1 回答 1

0

Hadoop 是一次写入多次读取 (WORM) 方法，增量负载并非易事。您可以遵循以下指南并验证您当前的要求

如果表是小型/中型并且没有太多记录，最好刷新整个表
如果表太大，增量负载有add/update/delete操作，可以考虑staging delta，执行join操作重新创建数据集。
对于大表和大增量，您可以为所有最新记录创建一个版本号，每个增量可能会来到一个新目录，并且应该创建一个视图以获取最新版本以进行进一步处理。这避免了繁重的合并操作。

如果删除操作没有作为更改出现，那么您还需要考虑如何对其采取行动，在这种情况下，您需要完全刷新。

于 2018-12-22T13:29:21.787 回答