我有一个城市名称数据库,但问题是它没有经过清理。例如,如果印度班加罗尔是一个城市,那么我的数据库中可能有以下位置:
- 班加罗尔
- 印度班加罗尔
- 印度班加罗尔(拼写错误)
- 班加罗尔,顶级城市,印度
- 班加罗尔,大都会,印度
现在我想清理这些数据,以便清理后唯一剩下的条目是“印度班加罗尔”。我可以使用 LinkedIn 或 Facebook 拥有的数据,但我不知道这是否可能?另一种方法可能是拥有一个城市名称的主列表并在此基础上进行清理,但这似乎是一种昂贵的方法。理想情况下,当我将任何城市名称(正确或不正确)作为输入传递时,我正在寻找一种能够从正确的数据集中返回最佳匹配城市的服务。任何指针将不胜感激。