5

我需要在导入过程中匹配美国邮政地址。问题是地址行可以用几种不同的方式输入。例子:

123 Main Street

123 Main St.

123 Main St

如何标准化地址以便进行匹配?我们一次导入 10,000 个地址,所以我不想使用 Google、Yahoo 或 USPS 之类的服务。是否有不是 COM 组件的用于地址标准化的开源或商业库?我不在乎地址是否真实,我只关心匹配。

4

1 回答 1

8

这类事情非常复杂。一些公司完全基于提供此功能。

我不建议这样做,现有的图书馆和服务可以做到这一点:

https://www.usps.com/business/address-management-products.htm

http://smartystreets.com/products/liveaddress-api

如果这些不是选项,并且引用的链接(地址匹配密钥算法)对您没有帮助,那么您基本上必须将所有内容归结为一些共同点。例如,将字符串拆分为组成部分(街道编号、街道编号后缀、单元/套房编号、街道名称、街道类型和街道方向)。然后,将每个(如果适用)的所有可能缩写转换为该公分母。对于街道类型“St.”,您可以选择“street”作为公分母,在这种情况下,您将转换为“St.”。或“St”到“Street”,然后进行任何匹配——假设数据库中的所有数据都包含该街道类型的“street”。

于 2012-09-06T19:05:26.613 回答