我们在主表中有很多重复项。请参见下面的示例,客户 ABC Corp 在主表中存在 3 次,并且在 Orders 表中引用了所有 3 个 CustID。
**Customers Table**
<table>
<tr><td><strong>CustID</strong></td><td><strong>CustName</strong></td></tr>
<tr><td>1001</td><td>ABC Corp.</td></tr>
<tr><td>1002</td><td>XYZ Corp.</td></tr>
<tr><td>1003</td><td>ABC Corp Ltd.</td></tr>
<tr><td>1002</td><td>ABC Corporation Limited.</td></tr>
</table>
**Orders Table**
<table>
<tr><td><strong>OrderID</strong></td><td><strong>CustID</strong></td></tr>
<tr><td>23425</td><td>1001</td></tr>
<tr><td>23466</td><td>1003</td></tr>
<tr><td>23488</td><td>1003</td></tr>
<tr><td>43877</td><td>1004</td></tr>
</table>
如何使用数据质量服务从客户表中删除重复的客户,以及如何更新订单表以反映更改。
即 CustID 1003 和 1004 合并到 Orders 表中的 1001 和 1003 和 1004 也需要更新为 1001。
到目前为止我所做的。使用 CustName 的同义词为客户创建知识库并定义领先值。然后在 DQS 中创建数据清理项目并分析数据,然后对主数据进行更正,并将这些更正的值导入客户知识库。我知道 SSIS 中的 DQS 清理转换通过连接到源表和 DQS KB 并提供匹配和不匹配的行来自动执行此操作,但我仍然不明白从这里做什么。客户表中的数据如何更正,订单表如何相应更新。请建议。到目前为止我看到的例子都是使用非常基本的东西,只有一个表格和一个简单的 Excel 表。