我有一个创建两个数据集的数据连接源:
- 数据集 X(快照)
- 数据集 Y(增量)
这两个数据集来自同一来源。数据集X包含源表中所有行的当前状态。数据集Y提取自上次构建以来已更新的所有行。然后将这两个数据集在下游合并到 datasetZ中, datasetZ是 datasetX或 dataset 中每一行的最新版本Y。这使我们既可以进行低延迟更新,又可以保持良好的分区。
在源表中删除行时,这些行不再存在于 dataset 中,X但仍存在于 dataset 中Y。
将这些“已删除”行保留在数据集中的最佳方法是什么Z?理想情况下,我还可以在Y不丢失任何“已删除”行的情况下对数据集进行快照。