7

考虑以下两种 DWH 架构:

带有原始数据库的 DWH,层:

  • 源系统
  • 暂存区(每次加载时截断,源表的精确模式)
  • 原始数据保险库(建模为数据保险库,包含记录历史、以源系统结构为模型的集线器/卫星/链接,未应用业务规则)
  • 数据集市(维度模型、应用的业务规则)

具有持久暂存区(称为 PSA 或 HDA)的 DWH,层:

  • 源系统
  • 暂存区(每次加载时截断,源表的精确模式)
  • PSA(包含记录历史、源表的模式 + date_load/date_load_end 列等)
  • 数据集市(维度模型、应用的业务规则)

与 PSA 概念相比,原始 Data Vault 概念有什么好处吗?在我看来,Data Vault 建模在 ETL 方面增加了不必要的复杂性,并且在性能方面也较慢。

很难找到一个真正好的答案,有什么想法吗?

谢谢!

4

2 回答 2

1

添加的复杂性对应于前面在 Data Vault 案例中介绍的关系模型。我想这取决于您要对数据建模的级别,并使其在不同的用例中可重用,从而产生不同的数据集市。我的意思是,数据集市是为特定的业务案例而设计的,而数据保险库模型则更多地被设计为总体性的(企业模型)。因此,基于 DV 模型的数据集市根本不需要物理实体化任何数据。可以设置一层视图,看起来像星型模式表,但实际上具有:

•   Zero maintenance cost.
•   Zero storage costs.
•   High flexibility.

此外,从更一般的意义上(组织范围)了解数据之间的关系绝对是一件好事——如果这些信息和提到的优势证明构建 DV 模型的额外努力是难以判断的。

于 2020-03-31T13:08:53.187 回答
1

Data Vault vs. Persistent Staging Area 在我看来就像苹果和梨——很难比较。您不应该尝试在不了解业务本体的情况下定义 Data Vault 来捕获源数据 - 否则您正在构建一个源系统 Vault,这对业务没有好处或几乎没有好处。在 PSA 或数据湖上构建 Data Vault 对我来说更有意义。将数据作为源系统的图像登陆,然后逐步建立可持续的数据收集。

于 2020-03-04T21:14:28.183 回答