r - 在 r 中查找潜在的重复（拼写错误）

翻译自：https://stackoverflow.com/questions/11342931 2012-07-05T10:58:00.803

71 次

可能重复：
R：如何测量字符串之间的相似性？

我一直在研究一个大型数据集。我需要找到潜在的重复 - 类似的名称，例如：

NewYork, new york, New York, Naw York, Niy Work

因此，我认为以下规则可以帮助捕捉这种潜在的重复：

如果任何三个连续字符匹配：问题：然后它将检测以下作为潜在的重复，实际上它们不是。命运迟到率如果变得更保守，我可能需要 4 个连续的字符，那么我可能会遇到短词的问题。

有没有什么聪明的方法可以找到重复的错字类型？

考虑以下小例子：

myfruits <- c("Apple", "Apricot", "Avocado", "Banana", "Bilberry", 
"Blackberry", "Blackcurrant",    "Blueberry", "Currant", 
"Cherry", "Cherimoya", "Clementine", "Aple", "Binana", "BlaCkbarry",
"pricot")

拼写错误，但实际上是上述列表中的重复项：

 "Apple" & "Aple",
"Banana" &  "Binana", 
"Blackberry" & "BlaCkbarry", 
"Apricot" &  "pricot"

r - 在 r 中查找潜在的重复（拼写错误）

0 回答 0

Related

Reference