我正在使用tm
包来查找文本中单词之间的关联。
这就是我所做的(我也在使用tidytext
包)
book <- Corpus(VectorSource(c(part1,part2,part3,part4,part5)))
book <- tm_map(book, content_transformer(tolower))
book <- tm_map(book, removeNumbers)
book <- tm_map(book, removePunctuation)
book <- tm_map(book, stripWhitespace)
book <- tm_map(book, removeWords, stopwords("english"))
TDM_book <- TermDocumentMatrix(book)
book_tidy <- tidy(TDM_book)
当我检查我的决赛桌时,有一些词 likeinformationare
但在文本中注意到文本中有 likeinformation are
但很多information this
and information that
。
我怎样才能摆脱那种“魔术贴”?
此致