3

假设以下数据架构:源系统 -> 数据仓库(使用数据保险库模型)-> 数据虚拟化 -> 消费层(例如,BI 工具和报告)

我读到,对于数据保险库,关键原则之一是加载原始数据并保存来自所有来源的记录——因此无需出于可追溯性/审计目的进行重复数据删除或转换。如果这是真的,那么转变会发生在哪里?

4

2 回答 2

3

是的,这是真的,“原始”数据保险库会保留加载时源系统上的记录。

但是还有另一个概念,“业务”数据保险库。这是所有逻辑和转换发生的地方。业务数据库不是原始数据库的完整副本,但您可以创建 hub/link/sat/pit/bridge 来实现满足您需求的逻辑。

这样,从长远来看,它可以帮助您。例如,如果您需要在明年更改业务规则,您仍然拥有过去特定时间特定源系统的原始数据。如果您的逻辑有错误,您仍然拥有原始数据。

于 2020-10-20T12:07:34.863 回答
0

根据我的经验,通常你有这样的架构:

  1. 原始源(从您的 OLTP 数据源复制)
  2. 暂存(现在作为 Datalake 中的持久暂存区,因为它比关系数据库便宜)
  3. Raw Vault(应用所谓的硬规则,如数据类型更改)
  4. Business Vault(应用所谓的软规则、所有业务逻辑、聚合、连接......)
  5. 信息集市(数据集市有时会虚拟化,但并非总是如此……通常是星形/雪花模式)
  6. 立方体/表格模型
  7. 商业智能工具

有关 Raw Vault 和 Business Vault 之间区别的更多信息,您可以在此处找到:Datavault - 硬规则 (rawvault) 与软规则 (businessvault)

于 2020-11-05T12:20:45.750 回答