我正在通过以下链接处理数据仓库中的数据质量问题。
http://www.kimballgroup.com/2007/10/an-architecture-for-data-quality/
" 响应质量事件我已经说过,每个质量屏幕都必须决定抛出错误时会发生什么。选择是:1) 停止进程,2) 将有问题的记录发送到暂挂文件以供以后处理, 和 3)仅标记数据并将其传递到管道中的下一步。第三种选择是迄今为止最好的选择。
在某些维度提要(如客户列表)中,有时我们会两次获得同一个客户(两条记录在某些属性上存在差异)。在这种情况下,最好的解决方案是什么?
我不想拒绝这两条记录(因为这意味着不完整的客户数据)。
源系统修复问题的速度非常慢,所以我们每天都会遇到同样的问题。这意味着手动修复问题也很困难,因为它必须每天完成(我们每天都会收到客户名单)。
选择单个记录是不可能的,因为我们不知道正确的值是什么。
在我们的仓库中拥有这两个记录意味着我们的连接被中断。由于同一 ID 的两行,事实表行加倍(在连接中)。
有什么想法吗?