我正在尝试在相当大的数据集上使用 topicmodels 包中的 LDA() 。在尝试了所有方法来修复以下错误“在 nr * nc 中:整数溢出产生的 NAs”和“输入矩阵的每一行都需要包含至少一个非零条目”之后,我最终遇到了这个错误。
ask<- read.csv('askreddit201508.csv', stringsAsFactors = F)
myDtm <- create_matrix(as.vector(ask$title), language="english", removeNumbers=TRUE, stemWords=TRUE, weighting=weightTf)
myDtm2 = removeSparseTerms(myDtm,0.99999)
myDtm2 <- rollup(myDtm2, 2, na.rm=TRUE, FUN = sum)
rowTotals <- apply(myDtm2 , 1, sum)
myDtm2 <- myDtm2[rowTotals> 0, ]
LDA2 <- LDA(myDtm2,100)
Error in LDA(myDtm2, 100) :
The DocumentTermMatrix needs to have a term frequency weighting