我有一个术语文档矩阵(16,977 个术语,29,414 个文档):
Non-/sparse entries: 355000/499006478
Sparsity : 100%
Maximal term length: 7
Weighting : term frequency (tf)
为了进一步分析,我将术语数限制为 2,425。例如,如何通过包含频率超过 20 的术语来生成新的术语文档矩阵?
由于矩阵很大,as.matrix
不能应用传统方法。