在 R 中,我使用gw_idf()
文档术语矩阵的加权方案(每行代表一个文档,每列代表一个唯一的单词),它是lsa
库的一部分。在包文档(第 23 页)中,声明:
' gw_idf() 在 xm矩阵中返回逆文档频率。每个单元格是 1 加上文档数量的对数除以出现该术语的文档数量。'
但是,当我运行以下代码时:
readfile <- readLines(source)
corpus <- Corpus(VectorSource(readfile), readerControl=list(language="en"))
document_term_matrix <- as.matrix(DocumentTermMatrix(corpus, control = list(stemming = FALSE, stopwords=FALSE, minWordLength=3, removeNumbers=TRUE, removePunctuation=TRUE )))
gw_idf <- gw_idf(document_term_matrix)
gw_idf
now 是一个长度等于文档数量的向量。
所以,如果我理解正确的话:文档说明输出应该是一个矩阵,而我得到的输出是一个向量。我对文档的解释在这里不正确吗?还是文档不正确?