可能重复:
R:如何测量字符串之间的相似性?
我一直在研究一个大型数据集。我需要找到潜在的重复 - 类似的名称,例如:
NewYork, new york, New York, Naw York, Niy Work
因此,我认为以下规则可以帮助捕捉这种潜在的重复:
如果任何三个连续字符匹配: 问题:然后它将检测以下作为潜在的重复,实际上它们不是。命运迟到率 如果变得更保守,我可能需要 4 个连续的字符,那么我可能会遇到短词的问题。
有没有什么聪明的方法可以找到重复的错字类型?
考虑以下小例子:
myfruits <- c("Apple", "Apricot", "Avocado", "Banana", "Bilberry",
"Blackberry", "Blackcurrant", "Blueberry", "Currant",
"Cherry", "Cherimoya", "Clementine", "Aple", "Binana", "BlaCkbarry",
"pricot")
拼写错误,但实际上是上述列表中的重复项:
"Apple" & "Aple",
"Banana" & "Binana",
"Blackberry" & "BlaCkbarry",
"Apricot" & "pricot"