我在 Visual Studio 2008 中使用 SSIS 在客户表上执行一些模糊分组。
列 ID 名称 电子邮件等
我在表中有一些重复的客户,他们使用相同的电子邮件地址,我目前能够使用模糊分组来识别重复项以进行手动检查。
我也有一些几乎重复的记录,但有一些额外的标点符号。
例如
ID Name Email
1 bob bob.bob@bob.com
2 bob bob.bob@bob.com
3 bob bob..bob@bob.com
7 tom tom@tom.com
9 frog tom@tom..com
目前我可以让 id 1 和 2 匹配,但我希望 1、2 和 3 匹配并分组在同一个键上
并且 7 和 9 也匹配,因为我想忽略双句点并将其视为只有一个句点。名称也无关紧要,目前只有电子邮件地址列很重要。
请有任何建议和帮助。