0

我有多个人员实体实例,这些实例通常是同一个人。如果地址 First-Last 在同一个地址是相同的,那么合并/汇总它们是不费吹灰之力的。

但是,由于数据输入不一致,必须有一种方法可以稍微偏离准确性。我认为信用卡行业会这样做:邮编加街道号码,还是街道名称?……那种性质的东西。

为了巩固我的匹配,我清理了地址字符串,试图使它们尽可能标准(“Hwy”->“Highway”等)。

我需要一些仍然可以匹配的记录,这些记录对一个人来说一眼就能看出来,但没有完全匹配的数据。

这是我最初的想法,连接一个由以下内容组成的字符串:

First Initial
LEFT8 of the LastName (allows inconsistent endings, such as "Esq." or "CPA")
LEFT3 of Zip
Street Number
LEFT8 of the StreetName (not Addr1 -- "Oak" for "8 N Oak Street")

我在这里错过了什么吗?我认为我把它放得足够松以克服正常的数据输入不一致,但又足够紧以避免不正确的匹配。

4

2 回答 2

1

我参与了一个为一家大型金融机构清理姓名和地址数据的项目。我们自动实现了大约 98.4% 的成功率,但不幸的是,这仍然留下了大约 150,000 个不匹配。

我们解决问题的方法是(随着时间的推移)建立可能发生的错误类型的规则库,并扩展逻辑的模糊性以涵盖已识别的错误类别。

确实可以通过参考(英国)邮政编码和门牌号和/或名称来完成大量数据清理。在英国,可以通过考虑邮政编码的第一部分来引入模糊性——它决定了一个广阔的区域。我不清楚这是否同样适用于邮政编码。

然而,这种方法不能很好地处理不正常运行的地址——我自己的地址就是一个例子;我住在船上,因此有一些额外的地址以确保正确寻址。

此类异常总是可能需要人工干预。

顺便说一句,您关于合并/汇总在同一地址的 First-Last 相同的人是不费吹灰之力的断言需要受到质疑。我们在数据清理中遇到的最困难的情况恰恰是有两个同名的人(例如父亲和儿子)住在同一个地址。同样,如果同名的人购买了房产(这种情况发生了),那么就会再次出现“重复”的问题。

于 2010-10-19T15:59:32.610 回答
1

Chris A.,您是否考虑过在这项任务中使用官方专家系统?值得注意的是,正如您所发现的,标准化地址以便您可以有效地迭代它们变得非常困难非常快。在SmartyStreets(我工作的地方),这是我们的业务核心:执行某些执行此任务的算法。

这可能不是对您的确切问题的直接答案,但它是开发模糊搜索查询过程中至关重要的一步,您可以从良好的数据开始。换句话说,正如 Chris W. 在他的回答中所表明的那样,即使在模糊查询之后,还有很多不足之处。

所以我建议首先真正标准化所有地址(考虑地址“过载”本身,两个地址看起来完全不同,但地址相同)。对于美国地址,您可以尝试列表处理服务(如CASS 认证的擦洗;您自己选择的研究)。一个好的会为您标记重复项,然后让您采取行动。在地址标准化和标记后,您可以更快地根据您的业务定义(按姓氏等)清除确切的重复项。那时,您将对除了最棘手的地址之外的任何内容进行模糊搜索,并且您已经对可能的重复内容有了一个很好的了解。

于 2012-02-06T20:19:12.383 回答