r - R：大数据集上的字符串操作（如何加速？）

Question

我有一个大的data.frame（> 4M行），其中一列包含字符串。我想在每个文本字段（例如gsub）上执行几个字符串操作/匹配正则表达式。

我想知道如何加快运营速度？基本上，我正在表演一堆

gsub(patternvector," [token] ",tweetDF$textcolumn)
gsub(patternvector," [token] ",tweetDF$textcolumn)
....

我在 8GB RAM 的 Mac 上运行 R 并尝试将其移动到云（具有 ~64GB RAM 的 Amazon EC2 大型实例），但速度不是很快。

我听说过几个包（bigmemory, ），并在此处ff找到了有关 R 的高性能/并行计算的概述。

有没有人推荐最适合加速字符串操作的包？或者知道解释如何将标准 R 字符串函数 ( gsub,..) 应用于由这些“高性能计算包”创建的“对象”的来源？

谢谢你的帮助！

score 1 · Accepted Answer

mclapply或允许并行处理的任何其他功能应该显着加快任务。如果您不使用并行处理，则无论您的计算机有多少 CPU 可用，您都只使用 1 个 CPU。

1 回答 1