我试图想出一种基于相似度分数来查找重复地址的方法。考虑这些重复的地址:
addr_1 = '# 3 FAIRMONT LINK SOUTH'
addr_2 = '3 FAIRMONT LINK S'
addr_3 = '5703 - 48TH AVE'
adrr_4 = '5703- 48 AVENUE'
我计划应用一些字符串转换来使长单词缩写,如 NORTH -> N,删除所有空格、逗号和破折号以及井号。现在,有了这个输出,我如何将 addr_3 与其余地址进行比较并检测到相似之处?多少百分比的相似性是安全的?你能为此提供一个简单的python代码吗?
addr_1 = '3FAIRMONTLINKS'
addr_2 = '3FAIRMONTLINKS'
addr_3 = '570348THAV'
adrr_4 = '570348AV'
谢天谢地,
爱德华多