我正在尝试使用 R 语言提供的文本挖掘工具,但由于我在旧机器上运行,所以我面临以下问题。
我想使用 tm 包和语料库函数创建一个文档术语矩阵。当我创建 DTM 时,我收到一个可以分配 4GB 内存的错误(我的机器有 2GB 内存)。一般来说,您如何面对这样的问题?例如,在一般应用中,DTM 应该比我的矩阵大得多。有没有办法使用 SQL 数据库而不是使用内存?
//我研究了一篇关于使用 sqldf 库创建临时 sqlite 数据库的相关文章。但在这种情况下,我什至无法创建矩阵。
我正在尝试使用 R 语言提供的文本挖掘工具,但由于我在旧机器上运行,所以我面临以下问题。
我想使用 tm 包和语料库函数创建一个文档术语矩阵。当我创建 DTM 时,我收到一个可以分配 4GB 内存的错误(我的机器有 2GB 内存)。一般来说,您如何面对这样的问题?例如,在一般应用中,DTM 应该比我的矩阵大得多。有没有办法使用 SQL 数据库而不是使用内存?
//我研究了一篇关于使用 sqldf 库创建临时 sqlite 数据库的相关文章。但在这种情况下,我什至无法创建矩阵。
一般来说,您如何面对这样的问题?
使用稀疏矩阵数据结构。没有它,文本挖掘几乎是不可能的。有了一个,我可以在几百 MB 中处理 100 到 1000 个文档。
我自己不在 R 中工作,但它一定会在某个地方有一个稀疏矩阵包。