regex - R摆脱单引号字符

Question

我有一个要处理的字符串向量，但我无法摆脱一些奇怪的字符。

当我阅读 csv 文件时，我使用了以下行：

train <- read.csv(file="files/file1.csv", header = T, encoding = "UTF-8")

我用这条线来尝试摆脱标点符号：

train$var1 <- gsub("[[:punct:]]", " ", train$var1)

但是在运行后检查，我仍然看到奇怪的单引号，'...'，以及像密码隐藏字符一样的黑点。这是输出：

dput(unique(unlist(var1List))[c(30242:30246, 30561, 30484)])
c("opportunity…", "about…", "expected…", "reward…", "us…", "‘as", 
"<U+25CF>")

有什么摆脱这些角色的建议吗？

score 5 · Accepted Answer

您可以删除除一组合法字符之外的所有内容：

train$var1 <- gsub("[^\\w\\s]", " ", train$var1, perl = TRUE)

例如，会将不是字母数字或空白字符的每个字符更改为空格。

1 回答 1