对于我们公司使用的一些 SaaS 工具,第 3 方管理这些工具并为我们提供每日提要,我们将这些提要加载到我们的数据仓库中。
有时,其中一个提要中的记录会出现错误,需要尽快修复以进行下游报告。但是,第 3 方更正源 SaaS 系统中记录的 SLA 最多可能需要两周时间。“错误”不会破坏任何内容,只是记录在应该保持打开状态时关闭,或者字段的值错误。
过程如下:
- 我们数据仓库团队下游的 BI 团队 A 注意到了这种差异。
- BI 团队 A 更正其数据库中的记录,其他团队从中使用
- 从数据仓库和 BI 团队 A 接收数据的 BI 团队 B 发出警报,因为他们发现我们的输出与他们从团队 A 收到的输出之间存在差异。
- 我们(数据仓库团队)必须更正源数据
- 上游第 3 方最终更正记录
有没有人有这种情况的最佳实践?有什么方法可以:
A. 使 BI 团队 A 能够在不影响数据仓库团队的情况下尽快更正记录,并且 B. 一旦上游 3rd 方更正了源数据,是否可以回滚?
我的一个想法是使用源代码控制的 csv 文件(如dbt
seed
表格),如果记录通常不包含 PII,因此无法进行版本控制。