我有多个人员实体实例,这些实例通常是同一个人。如果地址 First-Last 在同一个地址是相同的,那么合并/汇总它们是不费吹灰之力的。
但是,由于数据输入不一致,必须有一种方法可以稍微偏离准确性。我认为信用卡行业会这样做:邮编加街道号码,还是街道名称?……那种性质的东西。
为了巩固我的匹配,我清理了地址字符串,试图使它们尽可能标准(“Hwy”->“Highway”等)。
我需要一些仍然可以匹配的记录,这些记录对一个人来说一眼就能看出来,但没有完全匹配的数据。
这是我最初的想法,连接一个由以下内容组成的字符串:
First Initial
LEFT8 of the LastName (allows inconsistent endings, such as "Esq." or "CPA")
LEFT3 of Zip
Street Number
LEFT8 of the StreetName (not Addr1 -- "Oak" for "8 N Oak Street")
我在这里错过了什么吗?我认为我把它放得足够松以克服正常的数据输入不一致,但又足够紧以避免不正确的匹配。