r - 术语文档矩阵或文档术语矩阵哪个更好？

问问题 2016-01-19T08:05:24.947

2117 次

我正在计算 R 3.2.2 中文本文档中唯一单词的频率。我现在已经将这么多文章折叠成一个单独的文本文档，并使用 package.json 构建到语料库中tm。

desc<-paste(column_input, collapse=" ")
desrc <- VectorSource(desc)
decorp<-Corpus(desrc)
#dedtm <- DocumentTermMatrix(decorp)
#dedtm <- TermDocumentMatrix(decorp)

那个文本文档中有 12000 个奇怪的术语。要继续进行矩阵运算，我不太确定哪种方法更好。术语文档矩阵或文档术语矩阵？

我希望这取决于上下文。如果文档较少而词条较多，使用词条文档矩阵而不是文档词条矩阵是否更好。我只是想了解这背后的逻辑。所以，我希望不需要任何可重现的例子。任何建议将不胜感激。

提前致谢，

巴拉

r - 术语文档矩阵或文档术语矩阵哪个更好？

0 回答 0

Related

Reference