我有一个要处理的字符串向量,但我无法摆脱一些奇怪的字符。
当我阅读 csv 文件时,我使用了以下行:
train <- read.csv(file="files/file1.csv", header = T, encoding = "UTF-8")
我用这条线来尝试摆脱标点符号:
train$var1 <- gsub("[[:punct:]]", " ", train$var1)
但是在运行后检查,我仍然看到奇怪的单引号,'...',以及像密码隐藏字符一样的黑点。这是输出:
dput(unique(unlist(var1List))[c(30242:30246, 30561, 30484)])
c("opportunity…", "about…", "expected…", "reward…", "us…", "‘as",
"<U+25CF>")
有什么摆脱这些角色的建议吗?