1

我在 Visual Studio 2008 中使用 SSIS 在客户表上执行一些模糊分组。

列 ID 名称 电子邮件等

我在表中有一些重复的客户,他们使用相同的电子邮件地址,我目前能够使用模糊分组来识别重复项以进行手动检查。

我也有一些几乎重复的记录,但有一些额外的标点符号。

例如

    ID   Name  Email
    1    bob   bob.bob@bob.com 
    2    bob   bob.bob@bob.com 
    3    bob   bob..bob@bob.com
    7    tom   tom@tom.com 
    9    frog  tom@tom..com 

目前我可以让 id 1 和 2 匹配,但我希望 1、2 和 3 匹配并分组在同一个键上

并且 7 和 9 也匹配,因为我想忽略双句点并将其视为只有一个句点。名称也无关紧要,目前只有电子邮件地址列很重要。

请有任何建议和帮助。

4

1 回答 1

0

在模糊分组转换之前使用派生列转换来删除不需要的字符:

REPLACE([Email], "..", ".")
于 2013-01-31T12:57:13.847 回答