是否有任何工具可以识别和合并 MySQL 表中的非精确重复项?
我有一个包含许多重复项的大型数据集,例如:
1348, Auto Motors, 12 Long Road, etc
48264, Auto Mtors, 12 Log Road, etc
82743, Ato Motoers, 12 Lng Road, etc
83821, Auto Motors, 13 Long Road, etc
92743, Auto Motors, 11 Long Road, etc
有许多表需要合并,例如:
- 公司
- 地址
- 电话号码
- 雇员
每行(连接表)上大约有 100,000 行和 30-40 列要匹配。
那么,有人知道解决这个问题的工具吗?我已经安装了 MySQL、PHP。如果他们有帮助的话,我之前有/可以使用(d)MongoDB 和 Solr。如果需要,我愿意安装其他软件。
或者,如果我找不到处理此问题的工具,我应该运行哪种查询。
一个简单find all duplicates
的方法是行不通的,因为它们不准确。
对于我需要尝试的所有不同组合,进行通配符之类的搜索会非常慢。
使用Oliver
or (MySQL)可能会起作用,并且有太多数据需要提取到 PHP 中(也可能非常慢)。Levenshtein