我从网络抓取返回了一系列公司名称,我正在尝试将它们与其他公司名称表进行比较,以查看它们是否匹配或接近匹配;
- 某有限公司
- 另一有限公司
本有限公司
某有限公司
- 另一家有限公司
- 那个有限公司
因此,比较两个列表应该将前两行标记为匹配,第二行标记为接近匹配,第三行标记为不匹配。据我了解,这是一个模糊搜索,但我在澄清如何最好地实现这一目标?有什么想法或建议吗?
我从网络抓取返回了一系列公司名称,我正在尝试将它们与其他公司名称表进行比较,以查看它们是否匹配或接近匹配;
本有限公司
某有限公司
因此,比较两个列表应该将前两行标记为匹配,第二行标记为接近匹配,第三行标记为不匹配。据我了解,这是一个模糊搜索,但我在澄清如何最好地实现这一目标?有什么想法或建议吗?
请参考: http ://en.wikipedia.org/wiki/Levenshtein_distance AC 实现可以在外部链接中找到:Levenshtein in MySQL