这不是 SQL Server 特定的问题;但这里可能有 tSQL 特定的选项。
我有一堆客户详细信息;他们中的许多人取消并退出了他们的服务。他们获得了一个全新的帐户;我们的数据验证充其量只是粗略的;所以他们经常打错电子邮件地址或其他数据。
问题分为两部分:
第一的; 我有诸如名字和姓氏、电子邮件、信用卡最后 4 位、邮政编码、电话号码等信息。是否有一种算法/过程我可以查看我的数据集并寻找常见的重复池,以便我可以确定数据的一些手动特征,这些特征往往是回头客的“陷阱”项目——即 80% 的时间电子邮件“相似”且邮政编码相同,是回头客(基于我的人工匹配技能)?
第二; 我该如何表达数据集之间的相似性——即如果 5 个字段中有 3 个匹配,则有一个称为匹配的项目?所有不同数据点之间的某种相似性指数?我知道我可以在某种程度上在名称上使用 soundex……在电子邮件地址上不太确定。
所以,我对快速和肮脏的解决方案都感兴趣(我今晚正在整理分析;但我也对解决这个问题的“正确”方法非常感兴趣。)这两个答案都会赢得我的爱和尊重。=)