r - r中的名称匹配和更正拼写错误

翻译自：https://stackoverflow.com/questions/66730370 2021-03-21T08:48:43.997

52 次

我有一个包含数百万行的巨大数据表，其中包含商品代码及其描述。我想为每个组分配一个类别（基于代码和描述的组合）。问题是描述以不同的方式拼写，我想将所有相似的名称转换为一个。这是一个说明性示例：

ibrary(data.table)
dt <- data.table(code = c(rep(1,2),rep(2,2),rep(3,2)), name = c('McDonalds','Mc 
Dnald','Macys','macy','Comcast','Com-cats'))
dt[,cat:='NA']
setkeyv(dt,c('code','name'))
dt[.(1,'McDonalds'),cat:='Restaurant']
dt[.(1,'Mc Dnald'),cat:='Restaurant']
dt[.(1,'Macys'),cat:='Department Store']

当然，在实际情况下，不可能遍历所有引用同一个单词的拼写并手动修复它们。有没有办法检测所有相似的单词并将它们转换为一个（正确的）拼写？

提前致谢

r - r中的名称匹配和更正拼写错误

0 回答 0

Related

Reference