0

我的语料库看起来像这样:我的语料库 myCorpus1 已包含 33704 条推文。你可以在下面的代码中看到它。但是当我创建中期矩阵,即 TermDocument Matrix 时,只有 3732 个文档。我的问题是 TermDocumentMatrix 函数如何?我错过了什么吗?或者,这个函数不会把每条推文都当成一个文档,而是有自己的解析文档的方式?我想知道为什么术语很少。我猜一个 33704-tweet 文本中应该有超过 10902 个

tweet_text2<-tweets2$text
myCleanedText <- sapply(tweet_text2,function(row) iconv(row, "latin1", "ASCII", sub=""))
as.vector(myCleanedText)
df<-data.frame(myCleanedText)
myCorpus1<-Corpus(VectorSource(as.vector(myCleanedText)))
myCorpus1<-tm_map(myCorpus1,content_transformer(tolower,removeURL,removeNumPunct),lazy=TRUE)
myCorpus1 <- tm_map(myCorpus1, removePunctuation,lazy=TRUE)
myCorpus1 <- tm_map(myCorpus1, removeNumbers,lazy=TRUE)
myStopwords <- c(stopwords('english'), "available", "via")
myStopwords<-setdiff(myStopwords,c("afraid","fear")) #varsa stopwordden cikar
myCorpus1<-tm_map(myCorpus1, stripWhitespace,lazy=TRUE)
myCorpus1<-tm_map(myCorpus1,as.PlainTextDocument,mc.cores=1)
myDtm <- as.matrix(TermDocumentMatrix(myCorpus1, control = list(minWordLength = 1,weighting=weightTfIdf,minDocFreq=0)))

> myCorpus1
<<VCorpus>>
Metadata:  corpus specific: 0, document level (indexed): 0
Content:  documents: 33704

> dim(myDtm)
[1] 10902  3732

任何帮助将不胜感激。

4

0 回答 0