r - R 的 tm_map 正在创建不存在的单词

翻译自：https://stackoverflow.com/questions/40949802 2016-12-03T16:14:29.123

33 次

我正在使用tm包来查找文本中单词之间的关联。

这就是我所做的（我也在使用tidytext包）

book <- Corpus(VectorSource(c(part1,part2,part3,part4,part5)))
book <- tm_map(book, content_transformer(tolower))
book <- tm_map(book, removeNumbers)
book <- tm_map(book, removePunctuation)
book <- tm_map(book, stripWhitespace)
book <- tm_map(book, removeWords, stopwords("english"))

TDM_book <- TermDocumentMatrix(book)

book_tidy <- tidy(TDM_book)

当我检查我的决赛桌时，有一些词 likeinformationare但在文本中注意到文本中有 likeinformation are但很多information thisand information that。

我怎样才能摆脱那种“魔术贴”？

此致

r - R 的 tm_map 正在创建不存在的单词

0 回答 0

Related

Reference