我有一个大的data.frame(> 4M行),其中一列包含字符串。我想在每个文本字段(例如gsub
)上执行几个字符串操作/匹配正则表达式。
我想知道如何加快运营速度?基本上,我正在表演一堆
gsub(patternvector," [token] ",tweetDF$textcolumn)
gsub(patternvector," [token] ",tweetDF$textcolumn)
....
我在 8GB RAM 的 Mac 上运行 R 并尝试将其移动到云(具有 ~64GB RAM 的 Amazon EC2 大型实例),但速度不是很快。
我听说过几个包(bigmemory
, ),并在此处ff
找到了有关 R 的高性能/并行计算的概述。
有没有人推荐最适合加速字符串操作的包?或者知道解释如何将标准 R 字符串函数 ( gsub
,..) 应用于由这些“高性能计算包”创建的“对象”的来源?
谢谢你的帮助!