我正在使用 R 包 tm 运行一些文本挖掘分析。当我将数据加载到语料库并尝试运行时
searches <- tm_map(searches, stripWhitespace)
searches <- tm_map(searches, tolower)
searches <- tm_map(searches, removeWords)
这些查询似乎都挂在我身上,并且需要很长时间才能完成。我得到了 500k 行搜索查询之间的东西。我怎样才能最好地在这个大数据集上运行 tm 包命令,而不会占用我的内存和挂在我身上的机器。
仅供参考 - 我的机器上有超过 8GB 的内存。