假设以下数据架构:源系统 -> 数据仓库(使用数据保险库模型)-> 数据虚拟化 -> 消费层(例如,BI 工具和报告)
我读到,对于数据保险库,关键原则之一是加载原始数据并保存来自所有来源的记录——因此无需出于可追溯性/审计目的进行重复数据删除或转换。如果这是真的,那么转变会发生在哪里?
假设以下数据架构:源系统 -> 数据仓库(使用数据保险库模型)-> 数据虚拟化 -> 消费层(例如,BI 工具和报告)
我读到,对于数据保险库,关键原则之一是加载原始数据并保存来自所有来源的记录——因此无需出于可追溯性/审计目的进行重复数据删除或转换。如果这是真的,那么转变会发生在哪里?
是的,这是真的,“原始”数据保险库会保留加载时源系统上的记录。
但是还有另一个概念,“业务”数据保险库。这是所有逻辑和转换发生的地方。业务数据库不是原始数据库的完整副本,但您可以创建 hub/link/sat/pit/bridge 来实现满足您需求的逻辑。
这样,从长远来看,它可以帮助您。例如,如果您需要在明年更改业务规则,您仍然拥有过去特定时间特定源系统的原始数据。如果您的逻辑有错误,您仍然拥有原始数据。
根据我的经验,通常你有这样的架构:
有关 Raw Vault 和 Business Vault 之间区别的更多信息,您可以在此处找到:Datavault - 硬规则 (rawvault) 与软规则 (businessvault)