2

我想为没有审计字段的源系统设置增量加载模式,该字段说明上次修改记录的时间。示例:持续修改时间(日期时间)

但是这些表是用主键和唯一键定义的,当属性发生任何变化时,应用程序使用它们来更新记录。

现在的问题是我如何确定 Delta 的每一天并使用 Azure Data Factory / Databricks 将它们加载到 Azure Data Lake 中。

我是否应该从当天和当天 -1 暂存全套数据并使用散列值确定增量?

还是有更好的方法?

4

1 回答 1

0

由于该数据库的大小并不大,最终创建了管道,它将完整数据集加载到 sql 暂存中,然后将数据湖写回初始加载数据集的相关位置,然后将 sql 暂存提升到 PreviousDay 模式。

对于下一个增量,它将完整数据集读取到 sql staging 中,然后与 PreviousDays 数据集进行比较,获取更改的记录并将数据湖写入相关的增量位置。然后删除现有的 PreviousDay 数据集并将 Staging 数据集提升到 previousDay 以便为下一个增量做好准备。

于 2020-04-08T22:11:17.207 回答