我正在尝试删除在不同文档中不断重复的整个段落。它是在电子邮件末尾的免责声明,例如:“对此电子邮件的任何评论、转发传播或其他用途......”
docs<-Corpus(VectorSource(text$Description))
toSpace <- content_transformer(function(x, pattern) gsub(pattern, " ", x))
docs <- tm_map(docs, toSpace, "/|@|\\|")
docs <- tm_map(docs, content_transformer(tolower))
docs <- tm_map(docs, removeWords, paste0(
"any ",
"review ",
"retransmission, ",
"dissemination ...)
它不工作。我无法删除单个单词,因为其中一些可能很有价值……有什么建议吗?