我有一个带有国家名称列的数据框。即使它们是同一个国家,这些名字的书写方式也不同,例如,小写字母不同,缺少一些字母,一些额外的字母等等。
所以我需要将它们分组到类似的模式中。例如,我有两个属于同一类别的观察结果: ("Brasil","brazil") 我需要将它们放在一起。我无法手动执行此操作,因为整个数据框由约 10 000 个观察值组成。
在对一个类别进行相似的观察后,我需要从这个类别中制作一些子集。
是否有一种可能的解决方案可以将这些相似的名称分组到一个类别中,然后将该类别与数据框中的其他列组成子集?
我试图使用 agrep 函数但没有成功。
number <- c(1:6)
country <- c("Brasil","brazil","Costa Rica","costarrica","suiza","Holanda")
example <- data.frame(number,country)
agrupamiento <- for (i in 1:nrow(example)){
agrep(example$country[i], example$country,
max.distance = 0.1,ignore.case = TRUE)
}