我正在尝试将一个营业地点名称和地址与另一个可能重复的营业地点名称和地址进行比较。问题是,姓名和地址通常是由人们手动输入的,因此显然存在各种差异。
这里有些例子:
St. vs. St. vs. Street
圣。14 vs. Ste 14 vs. Suite 14 vs. #14
NE 39th Ave. vs. 39th Ave. vs. 39th Avenue vs. NE 39th Avenue
还有更多是可能的......
我想在我的程序中编写一个正则表达式(使用 python)来比较将捕获这些细微差异的名称和地址。实际上,我经常看到看起来完全一样的地址,但对于少数不一样的地址,我不希望正则表达式完全拒绝它并说它们不一样。
有时同样适用于地名。(真实)示例:
“埃尔多拉多”与“埃尔多拉多墨西哥餐厅”
“东亚特兰大咖啡店”与“乔的东亚特兰大咖啡店”
“乡村餐厅”与“爸爸的村庄”<----我检查时它们的地址和电话号码完全相同,所以从技术上讲它们是重复的
“DJR 清洁企业”与“DJR 清洁企业公司”
如果您对如何执行此操作或代码想法有任何建议,我将不胜感激,因为我现在只知道如何做简单的正则表达式。我从来没有遇到过这么大的问题...
谢谢。