考虑以下两种 DWH 架构:
带有原始数据库的 DWH,层:
- 源系统
- 暂存区(每次加载时截断,源表的精确模式)
- 原始数据保险库(建模为数据保险库,包含记录历史、以源系统结构为模型的集线器/卫星/链接,未应用业务规则)
- 数据集市(维度模型、应用的业务规则)
具有持久暂存区(称为 PSA 或 HDA)的 DWH,层:
- 源系统
- 暂存区(每次加载时截断,源表的精确模式)
- PSA(包含记录历史、源表的模式 + date_load/date_load_end 列等)
- 数据集市(维度模型、应用的业务规则)
与 PSA 概念相比,原始 Data Vault 概念有什么好处吗?在我看来,Data Vault 建模在 ETL 方面增加了不必要的复杂性,并且在性能方面也较慢。
很难找到一个真正好的答案,有什么想法吗?
谢谢!