我有一个相当大的来自世界各地的位置地址数据库(500k+)。虽然很多地址是重复的或接近重复的。每当输入新地址时,我都会检查它是否已经在数据库中,如果是,我会采用已经存在的纬度/经度并将其应用于新条目。我不链接到单独的表的原因是因为地址没有作为一个组来搜索,而且它们在地址中通常有足够的差异,我想让它们保持不同。如果我的地址完全匹配,我会应用该纬度/经度。如果没有,我会去城市级别应用它,如果我无法在那里找到匹配,我有一个单独的流程要运行。
既然你有广泛的背景,问题就来了。有时我会得到一个远远超出正常可接受误差范围的纬度/经度。然而,奇怪的是,通常只有这些纬度/经度中的一两个超出范围,而其余数据以正确的城市名称存在于数据库中。
你会如何建议清理数据。我有地名数据库,所以理论上我有正确的数据。我正在努力解决的问题是你会运行什么程序来完成这项工作。
如果有人能指出我某些(低级)数据清理方向的方向,那就太好了。