r - R：将同一条目的不同拼写合并为一个

Question

我有一个按公司名称排序的数据集。有时名称拼写错误并显示为唯一条目：

Name
ABC Company
ABc Company
DEF Company
def compANY
Ddf Cmpany
abC comPany

事实上，这些条目是相同的两个公司名称的变体。这显然是我的初始数据集的一个问题，但我需要注意它以正确处理我的数据。

Name
ABC Company
DEF Company

除了针对类似字典的数据结构测试单词的修改版本的长循环之外，我不知道如何解决这个问题。是否有用于拼写检查的库（甚至对公司名称有意义）？

我会很感激任何帮助，并且不喜欢任何包裹。谢谢你。

score 2 · Accepted Answer

您可以使用adist来获取近似字符串距离，该距离可用于hclust获取可以分类为组的集群cutree。

hc <- hclust(as.dist(adist(Name, ignore.case = TRUE)))
Name[!duplicated(cutree(hc,k=2))] #For two groups
#[1] "ABC Company" "DEF Company"

数据：

Name <- c("ABC Company","ABc Company","DEF Company","def compANY","Ddf Cmpany","abC comPany")

1 回答 1