提前感谢您查看此内容。
我准备了一个数据仓库,并正在使用来自 2 个系统的客户信息填充客户表。一个系统中的客户与另一个系统中的客户具有相同的业务密钥。
区分两者的最佳方法是什么,所以我不想更新记录并保持良好的数据完整性。
我想知道系统标志,但我不确定。
欢迎所有建议/问题。
提前感谢您查看此内容。
我准备了一个数据仓库,并正在使用来自 2 个系统的客户信息填充客户表。一个系统中的客户与另一个系统中的客户具有相同的业务密钥。
区分两者的最佳方法是什么,所以我不想更新记录并保持良好的数据完整性。
我想知道系统标志,但我不确定。
欢迎所有建议/问题。
正如 Tab Alleman 所说,使用一identity
列作为主键。然后,当我以前遇到过这种情况时,我将两个业务键保存在不同的列中,并根据每种情况下相关的键进行更新。
这样,您还可以匹配使用多个系统的用户并查看重叠的位置。
我同意上面的评论 - “源系统”键是来自源系统的复合键 + 另一个字符串或标识实际源系统的 int。这与前面答案中提到的代理键是分开的。你的维度里真的有两把钥匙。一个是标准IDENTITY
代理键 - 没有惊喜。
另一个是复合键,由源系统中的键和一个标识符(我实际上通常只使用一个字符串)组成,它告诉您它来自哪个系统。
所以你的维度看起来像这样:
Customer_SK SRC_Key SRC_System Customer Name
1 5 SAP Jim
2 5 MYOB Joe
随着 DW 的开发和新源系统的引入,您只需不断添加 SRC_Systems
您可以按照另一个答案中的建议将它们放在不同的列中,但最终会得到以下结果:
Customer_SK SRC_Key_SAP SRC_Key_MYOB Customer Name
1 5 NULL Jim
2 NULL 5 Joe
这似乎有点浪费,并且每次新系统上线时都需要您添加一列。
重要的问题是:两个源系统中是否存在同一个客户?这种设计实际上允许跨行合并。
还要绝对确保您对 . 施加了唯一约束SRC_Key
,SRC_System
因为这有助于提高性能、确保完整性并自行记录密钥。
我个人推荐一个 IDENTITY 列作为代理键。