我有一个包含数百万行的巨大数据表,其中包含商品代码及其描述。我想为每个组分配一个类别(基于代码和描述的组合)。问题是描述以不同的方式拼写,我想将所有相似的名称转换为一个。这是一个说明性示例:
ibrary(data.table)
dt <- data.table(code = c(rep(1,2),rep(2,2),rep(3,2)), name = c('McDonalds','Mc
Dnald','Macys','macy','Comcast','Com-cats'))
dt[,cat:='NA']
setkeyv(dt,c('code','name'))
dt[.(1,'McDonalds'),cat:='Restaurant']
dt[.(1,'Mc Dnald'),cat:='Restaurant']
dt[.(1,'Macys'),cat:='Department Store']
当然,在实际情况下,不可能遍历所有引用同一个单词的拼写并手动修复它们。有没有办法检测所有相似的单词并将它们转换为一个(正确的)拼写?
提前致谢