r - DocumentTermMatrix 的性能问题

问问题 2014-07-10T16:54:28.877

203 次

我正在尝试创建两个文档术语矩阵，如下所示：

title_train <- DocumentTermMatrix(title_corpus_train, control = list(dictionary = title_dict))
title_test <- DocumentTermMatrix(title_corpus_test, control = list(dictionary = title_dict))

第一个有 75k 行，第二个有 25k 行。由于我创建了这些，我的内存使用量几乎达到了 7gb。

我想以更有效的方式加速使用这些矩阵...

我考虑了两种可能性，但我不确定如何实现其中任何一种：

将 DocumentTermMatrix 转换为 data.table
使用ff包将它们存储为ffdf

谁能提供有关如何加快使用大型 DocumentTermMatrix 的任何指导或示例？

最终，我希望能够支持超过 3m 行（我目前只使用 100k 的子集）。

r - DocumentTermMatrix 的性能问题

0 回答 0

Related

Reference