r - gw_idf 给出的输出维度与文档中所述不同

翻译自：https://stackoverflow.com/questions/66766536 2021-03-23T15:44:18.537

15 次

在 R 中，我使用gw_idf()文档术语矩阵的加权方案（每行代表一个文档，每列代表一个唯一的单词），它是lsa库的一部分。在包文档（第 23 页）中，声明：

' gw_idf() 在 xm矩阵中返回逆文档频率。每个单元格是 1 加上文档数量的对数除以出现该术语的文档数量。'

但是，当我运行以下代码时：

readfile <- readLines(source)
corpus <- Corpus(VectorSource(readfile), readerControl=list(language="en"))
document_term_matrix <- as.matrix(DocumentTermMatrix(corpus, control = list(stemming = FALSE, stopwords=FALSE, minWordLength=3, removeNumbers=TRUE, removePunctuation=TRUE )))
gw_idf <- gw_idf(document_term_matrix)

gw_idfnow 是一个长度等于文档数量的向量。

所以，如果我理解正确的话：文档说明输出应该是一个矩阵，而我得到的输出是一个向量。我对文档的解释在这里不正确吗？还是文档不正确？

r - gw_idf 给出的输出维度与文档中所述不同

0 回答 0

Related

Reference