1

我有一个大的data.frame(> 4M行),其中一列包含字符串。我想在每个文本字段(例如gsub)上执行几个字符串操作/匹配正则表达式。

我想知道如何加快运营速度?基本上,我正在表演一堆

gsub(patternvector," [token] ",tweetDF$textcolumn)
gsub(patternvector," [token] ",tweetDF$textcolumn)
....

我在 8GB RAM 的 Mac 上运行 R 并尝试将其移动到云(具有 ~64GB RAM 的 Amazon EC2 大型实例),但速度不是很快。

我听说过几个包(bigmemory, ),并在此处ff找到了有关 R 的高性能/并行计算的概述。

有没有人推荐最适合加速字符串操作的包?或者知道解释如何将标准 R 字符串函数 ( gsub,..) 应用于由这些“高性能计算包”创建的“对象”的来源?

谢谢你的帮助!

4

1 回答 1

1

mclapply或允许并行处理的任何其他功能应该显着加快任务。如果您不使用并行处理,则无论您的计算机有多少 CPU 可用,您都只使用 1 个 CPU。

于 2013-11-05T01:19:19.233 回答