我一直在使用 R 的tm
包在分类问题上取得了很大的成功。我知道如何在整个语料库中找到最常用的术语(使用findFreqTerms()
),但在文档中看不到任何可以找到最常用术语的内容(在我删除并删除停用词之后,但在我删除稀疏术语之前)在语料库中的每个单独文档中。我试过使用apply()
andmax
命令,但这给了我每个文档中术语出现的最大次数,而不是术语本身的名称。
library(tm)
data("crude")
corpus<-tm_map(crude, removePunctuation)
corpus<-tm_map(corpus, stripWhitespace)
corpus<-tm_map(corpus, tolower)
corpus<-tm_map(corpus, removeWords, stopwords("English"))
corpus<-tm_map(corpus, stemDocument)
dtm <- DocumentTermMatrix(corpus)
maxterms<-apply(dtm, 1, max)
maxterms
127 144 191 194 211 236 237 242 246 248 273 349 352
5 13 2 3 3 10 8 3 7 9 9 4 5
353 368 489 502 543 704 708
4 4 4 5 5 9 4
想法?