我正在使用 CDC 来捕获从 RDS 到 delta Lake 的更改(与源同步)。我打算对 Snowflake 进行增量 ETL。我不确定这样做的正确方法是什么。
``
使用 spark 结构化流(使用一次触发器)定期捕获所有表中的更改,将它们保存为表,将它们上传到雪花中的暂存表,并使用这些表更新星型模式。
不断地将 delta Lake 表更改为雪花中的临时表,然后定期更新星型模式。
使用Spark中的“readChangeData”和“startingTimestamp”特性实现增量ETL处理和控制表跟踪时间戳,并结合上述特性批量提取数据,然后上传到雪花。
将 Delta 用作雪花的外部表,并将其用作临时表以执行星型模式更新。