0

我有一个要处理的字符串向量,但我无法摆脱一些奇怪的字符。

当我阅读 csv 文件时,我使用了以下行:

train <- read.csv(file="files/file1.csv", header = T, encoding = "UTF-8")

我用这条线来尝试摆脱标点符号:

train$var1 <- gsub("[[:punct:]]", " ", train$var1)

但是在运行后检查,我仍然看到奇怪的单引号,'...',以及像密码隐藏字符一样的黑点。这是输出:

dput(unique(unlist(var1List))[c(30242:30246, 30561, 30484)])
c("opportunity…", "about…", "expected…", "reward…", "us…", "‘as", 
"<U+25CF>")

有什么摆脱这些角色的建议吗?

4

1 回答 1

5

您可以删除除一组合法字符之外的所有内容:

train$var1 <- gsub("[^\\w\\s]", " ", train$var1, perl = TRUE)

例如,会将不是字母数字或空白字符的每个字符更改为空格。

于 2013-02-27T16:41:50.553 回答