r - 数据过多的文本挖掘

Question

我正在尝试使用 R 语言提供的文本挖掘工具，但由于我在旧机器上运行，所以我面临以下问题。

我想使用 tm 包和语料库函数创建一个文档术语矩阵。当我创建 DTM 时，我收到一个可以分配 4GB 内存的错误（我的机器有 2GB 内存）。一般来说，您如何面对这样的问题？例如，在一般应用中，DTM 应该比我的矩阵大得多。有没有办法使用 SQL 数据库而不是使用内存？

//我研究了一篇关于使用 sqldf 库创建临时 sqlite 数据库的相关文章。但在这种情况下，我什至无法创建矩阵。

score 4 · Accepted Answer

一般来说，您如何面对这样的问题？

使用稀疏矩阵数据结构。没有它，文本挖掘几乎是不可能的。有了一个，我可以在几百 MB 中处理 100 到 1000 个文档。

我自己不在 R 中工作，但它一定会在某个地方有一个稀疏矩阵包。

1 回答 1