我特别致力于一个功能,以允许 人名的拼写错误和别名。我做了一些研究,发现字符串度量和语音库也有很多算法。
我已经尝试了一些,并且所有这些Jaro Winkler给出了一些好的结果,如下所示。
compareStrings("elon musk","elon musk")) --> 1.0
compareStrings("elonmusk","elon musk")) --> 0.98
compareStrings("elon mush","elon musk")) --> 0.99
compareStrings("eln msuk","elon musk")) --> 0.94
compareStrings("elon","elon musk")) --> 0.89
compareStrings("musk","elon musk")) --> 0.0 //This is bad, but can fix that.
compareStrings("mr elon musk","elon musk")) --> 0.81
以上是来自Apache commons Library的实现。我想知道是否有更好的实现可以更好地服务于目的。任何帮助表示赞赏。
编辑:@newuserua_ext @Trasher 谢谢,感谢您抽出宝贵的时间。我已经完成了与此相关的所有 StackExchange Q&A。并发布了这个关注人名的问题。