r - 使用 R 进行文本挖掘：使用 sub

Question

我正在使用 R 进行一个项目，并且我开始弄脏它。

在第一部分中，我尝试清理向量 msg 的数据。但是后来当我构建时termdocumentmatrix，这些字符仍然出现。我想删除少于 4 个字母的单词并删除标点符号

gsub("\\b\\w{1,4}\\b ", " ", pclbyshares$msg)
gsub("[[:punct:]]", "", pclbyshares$msg) 
corpus <- Corpus(VectorSource(pclbyshares$msg))
TermDocumentMatrix(corpus)
tdm <- TermDocumentMatrix(corpus)
findFreqTerms(tdm, lowfreq=120, highfreq=Inf)

score 0 · Accepted Answer

您还没有将前两行代码存储为变量以供以后使用。因此，在您创建corpus变量的第三行中，您使用的是未修改的msg数据。试试这个：

msg_clean <- gsub("\\b\\w{1,4}\\b ", " ", pclbyshares$msg)
msg_clean <- gsub("[[:punct:]]", "", msg_clean) 
corpus <- Corpus(VectorSource(msg_clean))
TermDocumentMatrix(corpus)
tdm <- TermDocumentMatrix(corpus)
findFreqTerms(tdm, lowfreq = 120, highfreq = Inf)

r - 使用 R 进行文本挖掘：使用 sub

1 回答 1

Related

Reference