我有两个语料库(我变成 DocumentTermMatrices、数据框,然后是 wordclouds),其中一个是另一个的子集。准确地说,一个是关于一所大学的文本语料库,另一个是关于该会议中所有大学的文本语料库。
R中有没有办法只提取较小的单词集独有的单词?这是我迄今为止为每个语料库运行的一种(这是用于“会议”语料库)
> SECDraft = read.csv("SECDraftScouting.csv", stringsAsFactors=FALSE)
> SECcorpus = Corpus(VectorSource(SECDraft$Report))
> SECcorpus = tm_map(SECcorpus, tolower)
> SECcorpus = tm_map(SECcorpus, PlainTextDocument)
> SECcorpus = tm_map(SECcorpus, removePunctuation)
> SECcorpus = tm_map(SECcorpus, removeWords, c("strengths", "weaknesses", "notes", stopwords("english")))
> SECfrequencies = DocumentTermMatrix(SECcorpus)
> SECallReports = as.data.frame(as.matrix(SECfrequencies))
> wordcloud(colnames(SECallReports), colSums(SECallReports), random.order = FALSE, max.words = 200, scale=c(2, 0.25))
多谢你们!