1

我有一个按公司名称排序的数据集。有时名称拼写错误并显示为唯一条目:

Name
ABC Company
ABc Company
DEF Company
def compANY
Ddf Cmpany
abC comPany

事实上,这些条目是相同的两个公司名称的变体。这显然是我的初始数据集的一个问题,但我需要注意它以正确处理我的数据。

Name
ABC Company
DEF Company

除了针对类似字典的数据结构测试单词的修改版本的长循环之外,我不知道如何解决这个问题。是否有用于拼写检查的库(甚至对公司名称有意义)?

我会很感激任何帮助,并且不喜欢任何包裹。谢谢你。

4

1 回答 1

2

您可以使用adist来获取近似字符串距离,该距离可用于hclust获取可以分类为组的集群cutree

hc <- hclust(as.dist(adist(Name, ignore.case = TRUE)))
Name[!duplicated(cutree(hc,k=2))] #For two groups
#[1] "ABC Company" "DEF Company"

数据:

Name <- c("ABC Company","ABc Company","DEF Company","def compANY","Ddf Cmpany","abC comPany")
于 2020-06-15T16:18:37.677 回答