0

我正在使用tm包来查找文本中单词之间的关联。

这就是我所做的(我也在使用tidytext包)

book <- Corpus(VectorSource(c(part1,part2,part3,part4,part5)))
book <- tm_map(book, content_transformer(tolower))
book <- tm_map(book, removeNumbers)
book <- tm_map(book, removePunctuation)
book <- tm_map(book, stripWhitespace)
book <- tm_map(book, removeWords, stopwords("english"))

TDM_book <- TermDocumentMatrix(book)

book_tidy <- tidy(TDM_book)

当我检查我的决赛桌时,有一些词 likeinformationare但在文本中注意到文本中有 likeinformation are但很多information thisand information that

我怎样才能摆脱那种“魔术贴”?

此致

4

0 回答 0