文本挖掘包维护它自己的停用词列表,并提供有用的工具来管理和总结这种类型的文本。
假设您的推文存储在向量中。
library(tm)
words <- vector_of_strings
corpus <- Corpus(VectorSource(words))
corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, function(x) tolower(x))
corpus <- tm_map(corpus, function(x) removeWords(x,
stopwords()))
您可以将最后一行与您自己的停用词列表一起使用():
stoppers <- c(stopwords(), "gonna", "wanna", "lol", ... )
不幸的是,您必须生成自己的“文本消息”或“互联网消息”停用词列表。
但是,您可以通过向 NetLingo ( http://vps.netlingo.com/acronyms.php )借用一点作弊
library(XML)
theurl <- "http://vps.netlingo.com/acronyms.php"
h <- htmlParse(theurl)
h <- getNodeSet(h,"//ul/li/span//a")
stoppers <- sapply(h,xmlValue)