我正在努力使用 TDM NA 值来提交集群。最初我已经设置:
titles.tdm <- as.matrix(TermDocumentMatrix(titles.cw, control = list(bounds = list(global = c(10,Inf)))))
titles.sc <- scale(na.omit(titles.tdm))
得到了 418 个术语和 6955 个文档的矩阵。此时执行:
titles.km <- kmeans(titles.sc, 2)
throws
Error in do_one(nmeth) : NA/NaN/Inf in foreign function call (arg 1)
当我决定通过以下方式删除这些值时:
titles.sf <- titles.sc[,colSums(titles.sc) > 0]
我有 4695 个文档的矩阵,但应用该kmeans
函数仍然会引发此错误。当我查看titles.sf
变量时,仍然有具有 NA 值的列(文档)。我搞砸了,不知道做错了什么。如何删除那些文件?
早些时候,我已经应用titles.cw <- titles.cc[which(str_trim(titles.cc$content) != "")]
where titles.cc
is pure Corpus object from tm
library 类来删除黑色文档。它可能有效,但我的 NA 值在肯定不是空白的文档中。