0

我从网络抓取返回了一系列公司名称,我正在尝试将它们与其他公司名称表进行比较,以查看它们是否匹配或接近匹配;

  • 某有限公司
  • 另一有限公司
  • 本有限公司

  • 某有限公司

  • 另一家有限公司
  • 那个有限公司

因此,比较两个列表应该将前两行标记为匹配,第二行标记为接近匹配,第三行标记为不匹配。据我了解,这是一个模糊搜索,但我在澄清如何最好地实现这一目标?有什么想法或建议吗?

4

1 回答 1

1

请参考: http ://en.wikipedia.org/wiki/Levenshtein_distance AC 实现可以在外部链接中找到:Levenshtein in MySQL

于 2013-01-08T10:26:13.003 回答