让我们做一些文本挖掘
在这里,我支持一个文档术语矩阵(来自tm
包)
dtm <- TermDocumentMatrix(
myCorpus,
control = list(
weight = weightTfIdf,
tolower=TRUE,
removeNumbers = TRUE,
minWordLength = 2,
removePunctuation = TRUE,
stopwords=stopwords("german")
))
当我做一个
typeof(dtm)
我看到它是一个“列表”,结构看起来像
Docs
Terms 1 2 ...
lorem 0 0 ...
ipsum 0 0 ...
... .......
所以我尝试一个
wordMatrix = as.data.frame( t(as.matrix( dtm )) )
这适用于 1000 个文档。
但是当我尝试使用 40000 时,它不再适用了。
我收到此错误:
Fehler in vector(typeof(x$v), nr * nc) : Vektorgröße kann nicht NA sein
Zusätzlich: Warnmeldung:
In nr * nc : NAs durch Ganzzahlüberlauf erzeugt
向量中的错误...:向量不能是 NA 附加:在 nr * nc NAs 中由整数溢出创建
所以我查看了 as.matrix ,结果发现该函数以某种方式将其转换为带有 as.vector 的向量而不是矩阵。到向量的转换有效,但从向量到矩阵的转换无效。
你有什么建议可能是什么问题?
谢谢,船长