1

我正在计算 R 3.2.2 中文本文档中唯一单词的频率。我现在已经将这么多文章折叠成一个单独的文本文档,并使用 package.json 构建到语料库中tm

desc<-paste(column_input, collapse=" ")
desrc <- VectorSource(desc)
decorp<-Corpus(desrc)
#dedtm <- DocumentTermMatrix(decorp)
#dedtm <- TermDocumentMatrix(decorp)

那个文本文档中有 12000 个奇怪的术语。要继续进行矩阵运算,我不太确定哪种方法更好。术语文档矩阵或文档术语矩阵?

我希望这取决于上下文。如果文档较少而词条较多,使用词条文档矩阵而不是文档词条矩阵是否更好。我只是想了解这背后的逻辑。所以,我希望不需要任何可重现的例子。任何建议将不胜感激。

提前致谢,

巴拉

4

0 回答 0