我有很多字符串要匹配相似度(每个字符串平均为 30 个字符)。我发现difflib's
SequenceMatcher
这项任务非常适合,因为它很简单并且结果很好。hellboy
但如果我比较hell-boy
喜欢这个
>>> sm=SequenceMatcher(lambda x:x=='-','hellboy','hell-boy')
>>> sm.ratio()
0: 0.93333333333333335
我希望这样的话能得到 100% 的匹配,即ratio of 1.0
. 我知道上面函数中指定的垃圾字符不用于比较,而是用于查找最长的连续匹配子序列。有什么方法可以SequenceMatcher
忽略一些“垃圾”字符以进行比较?