sql - 使用什么逻辑来汇总/合并多个相同的人员实体？（紧，但足够模糊以扩大匹配范围）

Question

我有多个人员实体实例，这些实例通常是同一个人。如果地址 First-Last 在同一个地址是相同的，那么合并/汇总它们是不费吹灰之力的。

但是，由于数据输入不一致，必须有一种方法可以稍微偏离准确性。我认为信用卡行业会这样做：邮编加街道号码，还是街道名称？……那种性质的东西。

为了巩固我的匹配，我清理了地址字符串，试图使它们尽可能标准（“Hwy”->“Highway”等）。

我需要一些仍然可以匹配的记录，这些记录对一个人来说一眼就能看出来，但没有完全匹配的数据。

这是我最初的想法，连接一个由以下内容组成的字符串：

First Initial
LEFT8 of the LastName (allows inconsistent endings, such as "Esq." or "CPA")
LEFT3 of Zip
Street Number
LEFT8 of the StreetName (not Addr1 -- "Oak" for "8 N Oak Street")

我在这里错过了什么吗？我认为我把它放得足够松以克服正常的数据输入不一致，但又足够紧以避免不正确的匹配。

score 1 · Accepted Answer

我参与了一个为一家大型金融机构清理姓名和地址数据的项目。我们自动实现了大约 98.4% 的成功率，但不幸的是，这仍然留下了大约 150,000 个不匹配。

我们解决问题的方法是（随着时间的推移）建立可能发生的错误类型的规则库，并扩展逻辑的模糊性以涵盖已识别的错误类别。

确实可以通过参考（英国）邮政编码和门牌号和/或名称来完成大量数据清理。在英国，可以通过考虑邮政编码的第一部分来引入模糊性——它决定了一个广阔的区域。我不清楚这是否同样适用于邮政编码。

然而，这种方法不能很好地处理不正常运行的地址——我自己的地址就是一个例子；我住在船上，因此有一些额外的地址以确保正确寻址。

此类异常总是可能需要人工干预。

顺便说一句，您关于合并/汇总在同一地址的 First-Last 相同的人是不费吹灰之力的断言需要受到质疑。我们在数据清理中遇到的最困难的情况恰恰是有两个同名的人（例如父亲和儿子）住在同一个地址。同样，如果同名的人购买了房产（这种情况发生了），那么就会再次出现“重复”的问题。

score 1 · Accepted Answer

Chris A.，您是否考虑过在这项任务中使用官方专家系统？值得注意的是，正如您所发现的，标准化地址以便您可以有效地迭代它们变得非常困难非常快。在SmartyStreets（我工作的地方），这是我们的业务核心：执行某些执行此任务的算法。

这可能不是对您的确切问题的直接答案，但它是开发模糊搜索查询过程中至关重要的一步，您可以从良好的数据开始。换句话说，正如 Chris W. 在他的回答中所表明的那样，即使在模糊查询之后，还有很多不足之处。

所以我建议首先真正标准化所有地址（考虑地址“过载”本身，两个地址看起来完全不同，但地址相同）。对于美国地址，您可以尝试列表处理服务（如CASS 认证的擦洗；您自己选择的研究）。一个好的会为您标记重复项，然后让您采取行动。在地址标准化和标记后，您可以更快地根据您的业务定义（按姓氏等）清除确切的重复项。那时，您将对除了最棘手的地址之外的任何内容进行模糊搜索，并且您已经对可能的重复内容有了一个很好的了解。

sql - 使用什么逻辑来汇总/合并多个相同的人员实体？（紧，但足够模糊以扩大匹配范围）

2 回答 2

Related

Reference