2

我正在尝试创建两个文档术语矩阵,如下所示:

title_train <- DocumentTermMatrix(title_corpus_train, control = list(dictionary = title_dict))
title_test <- DocumentTermMatrix(title_corpus_test, control = list(dictionary = title_dict))

第一个有 75k 行,第二个有 25k 行。由于我创建了这些,我的内存使用量几乎达到了 7gb。

我想以更有效的方式加速使用这些矩阵...

我考虑了两种可能性,但我不确定如何实现其中任何一种:

  • 将 DocumentTermMatrix 转换为 data.table
  • 使用ff包将它们存储为ffdf

谁能提供有关如何加快使用大型 DocumentTermMatrix 的任何指导或示例?

最终,我希望能够支持超过 3m 行(我目前只使用 100k 的子集)。

4

0 回答 0