r - 如何在没有内存错误的情况下在大型语料库上使用 tm_map？

Question

我正在尝试使用tm包进行一些文本挖掘。corpus所以我从一个字符串向量创建一个。然后我使用tolower, 删除所有大写字母，这会导致错误。

corpus <- Corpus(VectorSource(string_vector))   
corpus <- tm_map(corpus, tolower) # Makes all words lower case

Error in mcfork() :
  unable to fork, possible reason: Cannot allocate memory

我用来创建语料库的字符串向量有 5621 行，最长的字符串有 4590 个字符。
我已经使用rm(list=ls()). 但这没有什么区别。

我在具有 32GB RAM 的服务器上运行它：

R version 3.0.2 (2013-09-25)
Platform: x86_64-pc-linux-gnu (64-bit)

我该如何解决这个问题，或者我的服务器不够强大？

score 1 · Accepted Answer

我通过设置附加参数解决了类似的问题：

tm_map 中的“懒惰=T”

因此，您对 tm_map 的调用将显示为：

tm_map(corpus, tolower, lazy=T)

r - 如何在没有内存错误的情况下在大型语料库上使用 tm_map？

1 回答 1

Related

Reference