我正在使用 R 进行一个项目,并且我开始弄脏它。
在第一部分中,我尝试清理向量 msg 的数据。但是后来当我构建 时termdocumentmatrix
,这些字符仍然出现。我想删除少于 4 个字母的单词并删除标点符号
gsub("\\b\\w{1,4}\\b ", " ", pclbyshares$msg)
gsub("[[:punct:]]", "", pclbyshares$msg)
corpus <- Corpus(VectorSource(pclbyshares$msg))
TermDocumentMatrix(corpus)
tdm <- TermDocumentMatrix(corpus)
findFreqTerms(tdm, lowfreq=120, highfreq=Inf)