我想了解在实时 DWH 环境中如何利用代理键。我知道他们增加了不依赖源生成的数据来存储每个维度键的好处,并且实际上还避免了由维度中的自然键构建的复合键,例如,(prod id + cust id+ time id)
但是,当我们将数据加载到事实中时,它是否不会增加必须维护(自然键、代理键)查找的复杂性。过去 3 年我一直在 BI/DW 团队工作,我们的系统中没有任何代理键。我们利用自然键来构建我们的数据集市。一个示例用例是存储在交易系统中的收入数据,该数据使用来自源的相同自然键以客户、产品、时间段粒度加载到仓库中。我们使用相同的方法加入相应的维度来构建 STAR 模式。
我认为在我们的案例中有意义的主要原因是企业使用 EDW 数据在帐户级别对数据进行微观分析,而不仅仅是趋势分析。在这种情况下,我们需要使用自然键来维护数据完整性。我想了解其他 DW 环境是如何工作的。您如何在系统中利用代理键或自然键。
谢谢!