3

我有一个相当大的来自世界各地的位置地址数据库(500k+)。虽然很多地址是重复的或接近重复的。每当输入新地址时,我都会检查它是否已经在数据库中,如果是,我会采用已经存在的纬度/经度并将其应用于新条目。我不链接到单独的表的原因是因为地址没有作为一个组来搜索,而且它们在地址中通常有足够的差异,我想让它们保持不同。如果我的地址完全匹配,我会应用该纬度/经度。如果没有,我会去城市级别应用它,如果我无法在那里找到匹配,我有一个单独的流程要运行。

既然你有广泛的背景,问题就来了。有时我会得到一个远远超出正常可接受误差范围的纬度/经度。然而,奇怪的是,通常只有这些纬度/经度中的一两个超出范围,而其余数据以正确的城市名称存在于数据库中。

你会如何建议清理数据。我有地名数据库,所以理论上我有正确的数据。我正在努力解决的问题是你会运行什么程序来完成这项工作。

如果有人能指出我某些(低级)数据清理方向​​的方向,那就太好了。

4

1 回答 1

0

这是一个老问题,但真正的原则永远不会消亡,对吧?

我在一家名为 SmartyStreets 的公司从事地址验证行业。当您拥有大量地址并需要“清理”它们,使其符合官方标准,然后将依赖它用于您运营的任何方面时,您最好查看 CASS 认证的软件(仅限美国;国家/地区差异很大,许多人并没有正式提供这样的服务)。

USPS 授权 CASS 认证的供应商“清理”或“清理”(意思是:标准化和验证)地址数据。我建议您使用 SmartyStreets 的LiveAddress等服务来验证地址或一次性处理列表。还有其他选择,但我认为这对您来说是最灵活和最实惠的。您可以清理您的初始列表,然后在收到新地址时使用 API 来验证它们。

更新:我看到您正在将 JSON 用于各种事情(顺便说一下,我喜欢 JSON,它很容易使用)。提供您需要的服务的供应商并不多,但 SmartyStreets提供。此外,您将能够通过阅读该站点上的一些资源/文章来了解地址验证的主题。

于 2012-01-13T18:54:09.693 回答