r - 语料库中的单词数

Question

我正在寻找一种方法来找到文本中最常见的单词，并且我正在使用 R。最常见的意思是它们的低频是语料库中单词的 1% 的单词。所以我需要计算语料库中的单词数。

到目前为止，这是我的代码：

#!/usr/bin/Rscript
library('tm')
library('wordcloud')
library('RColorBrewer')
twittercorpus <- system.file("stream","~/txt", package = "tm")
twittercorpus <- Corpus(DirSource("~/txt"),
                        readerControl=list(languageEl = "en"))
twittercorpus <- tm_map(twittercorpus, removeNumbers)
twittercorpus <- tm_map(twittercorpus,tolower)
twittercorpus <- tm_map(twittercorpus,removePunctuation)
my_stopwords <- c(stopwords("SMART"))
twittercorpus <-tm_map(twittercorpus,removeWords,my_stopwords)
mydata.dtm <- TermDocumentMatrix(twittercorpus)

我需要类似的东西：

freqmatrix <-findFreqTerms(mydata.dtm, lowfreq=rowSums(mydata.dtm)/100)

score 7 · Accepted Answer

如果您查看str(mydata.dtm)有一个名为nrow. 使用它：

freqmatrix <- findFreqTerms(mydata.dtm, lowfreq=mydata.dtm$nrow/100)

r - 语料库中的单词数

1 回答 1

Related

Reference