我有一个 MySQL 数据库表,其中包含大约 1000 家商店的信息。现在我将通过上传 Excel 电子表格来导入更多商店,并且我正在努力避免重复。
- 商店可能有相同的名称,但永远不会有相同的地址。
- 商店可能有相同的地址,但绝不会使用相同的名称
但这是我的问题。
- 商店可能拼写错误
- 地址可能拼写错误
目前我正在将数据导入临时表。现在我想知道将进口商店与现有商店进行比较的最佳方法是什么。
我的计划是遍历每一行并比较商店。
- 首先比较 a.name = b.name AND a.street = b.street。匹配时,商店被删除。
- 然后我将对名称和街道进行 Levenshtein 比较。在这里,我可能必须手动查看结果以确定它是否重复。
有没有人有这种数据比较的经验?
更新
感谢您的好答案。
将用于比较的字段是:
- 姓名
- 街道地址
- 邮政编码
- 城市
- 国家
我在想一些事情:
选择 name = Lavenshtein 和 country = country 的行。
这样我只需要处理一个小列表。
然后我可以开始更彻底地比较姓名和地址。