0

在 R 中,我使用gw_idf()文档术语矩阵的加权方案(每行代表一个文档,每列代表一个唯一的单词),它是lsa库的一部分。在包文档(第 23 页)中,声明:

' gw_idf() 在 xm矩阵中返回逆文档频率。每个单元格是 1 加上文档数量的对数除以出现该术语的文档数量。'

但是,当我运行以下代码时:

readfile <- readLines(source)
corpus <- Corpus(VectorSource(readfile), readerControl=list(language="en"))
document_term_matrix <- as.matrix(DocumentTermMatrix(corpus, control = list(stemming = FALSE, stopwords=FALSE, minWordLength=3, removeNumbers=TRUE, removePunctuation=TRUE )))
gw_idf <- gw_idf(document_term_matrix)

gw_idfnow 是一个长度等于文档数量的向量。

所以,如果我理解正确的话:文档说明输出应该是一个矩阵,而我得到的输出是一个向量。我对文档的解释在这里不正确吗?还是文档不正确?

4

0 回答 0