32

在更短的时间内处理超过 100000 条记录的最佳模糊匹配算法(模糊逻辑、N-Gram、Levenstein、Soundex ......)是什么?

4

2 回答 2

29

我建议您阅读 Navarro 在题为Approximate string matching的 Wikipedia 文章的参考部分中提到的文章 。根据实际研究做出决定总是比随机陌生人的建议更好。特别是如果已知记录集的性能对您很重要。

于 2009-01-29T11:34:16.093 回答
3

这在很大程度上取决于您的数据。某些记录可以比其他记录更好地匹配。例如,邮政编码是一种已定义的格式,因此可以以不同的方式与普通字符串进行比较。人们可以根据姓名首字母和出生日期,或其他组合等进行匹配。

于 2009-01-29T12:30:22.533 回答