我试图在其他帖子中找到答案,但似乎没有任何效果。
我有一个数据集,人们使用免费响应格式回答他们所在的城市。因此,对于每个城市,人们以许多不同的方式进行识别。例如,住在亚特兰大的人可能写过“Atlanta”、“atlanta”、“Atlanta, GA”等。
该数据集中有 12 个城市。我正在尝试清理这个变量,以便每个城市都保持一致。有没有办法为每个城市有效地做到这一点?我已经尝试过 mutate_if 和 str_replace_all 但似乎无法弄清楚(请参阅下面的代码)
all_data_city <- mutate_if(all_data_city, is.character,
str_replace_all, pattern = "Atlanta, GA",
replacement = "Atlanta")
all_data_city %>%
str_replace_all(c("Atlanta, GA" & "HCA Atlanta" & "HCC Atlanta" &
"Suwanee" & "Suwanee, GA" & "suwanee"), = "Atlanta")