1

我正在使用 R 进行一个项目,并且我开始弄脏它。

在第一部分中,我尝试清理向量 msg 的数据。但是后来当我构建 时termdocumentmatrix,这些字符仍然出现。我想删除少于 4 个字母的单词并删除标点符号

gsub("\\b\\w{1,4}\\b ", " ", pclbyshares$msg)
gsub("[[:punct:]]", "", pclbyshares$msg) 
corpus <- Corpus(VectorSource(pclbyshares$msg))
TermDocumentMatrix(corpus)
tdm <- TermDocumentMatrix(corpus)
findFreqTerms(tdm, lowfreq=120, highfreq=Inf)
4

1 回答 1

0

您还没有将前两行代码存储为变量以供以后使用。因此,在您创建corpus变量的第三行中,您使用的是未修改的msg数据。试试这个:

msg_clean <- gsub("\\b\\w{1,4}\\b ", " ", pclbyshares$msg)
msg_clean <- gsub("[[:punct:]]", "", msg_clean) 
corpus <- Corpus(VectorSource(msg_clean))
TermDocumentMatrix(corpus)
tdm <- TermDocumentMatrix(corpus)
findFreqTerms(tdm, lowfreq = 120, highfreq = Inf)
于 2016-07-12T20:15:56.873 回答