1

我正在寻找一些与 MS SQL Server 兼容的重复数据删除软件。我有一个相当广泛和凌乱的表格,其中包含来自世界各地的所有不同语言的地址。该表设置为将欺骗作为父/子记录处理,因此需要一些处理匹配的功能(即不仅仅是删除欺骗)。

编辑:这是结构

ParentID | MasterID | PropertyName | Address1 | Address2 | PostalCode | City | StateProvinceCode | CountryCode | PhoneNumber

MasterID每条记录都是唯一的。

ParentID包含MasterID每个条目的父记录,父记录是MasterID = ParentID.

CountryCode是两个字母的 ISO 国家代码(不是电话代码)。

4

1 回答 1

2

众所周知,地址重复很难追踪。写一个地址的有效方法大约有 10 种,这可能会导致问题。

您有一些允许重复的业务规则这一事实使我认为您最好滚动自己的软件以找到不可接受的欺骗并删除它们。

过去,我通过免费的地理编码服务(例如 Google 的地图 API)来处理地址,并寻找彼此相距一定阈值(10 英尺左右)的点。此时,您可以确定它是否符合“不可接受的重复”并将其删除。

要找到坐标之间的距离,我建议找到Great Circle Distance。祝你好运!

于 2011-08-22T20:28:07.100 回答