0

我在 R 中有以下说明,用于data$theme根据里面的文本更改变量的值data$paragraph,其中包含长字符串:

  lines <- grep('banana|apple', file$paragraph)  # lines that match search terms
  for (i in 1:length(lines)){
    data[lines[i], 'theme'] <- 'Fruit'
  }

这个命令的问题是它在处理大型数据集时效率极低。我的真实案例有超过20万行;每次替换我的电脑需要超过一秒钟的时间,我将不得不做超过 40,000 次订阅(而且我不能让我的整个脚本的这一小步骤花费超过 5 个小时才能完成)。我正在拼命寻找一种方法来加快速度,我敢打赌有一个简单的解决方案,但我想不出更好的方法来实现这一目标。帮助!

4

1 回答 1

4
data[lines, 'theme'] <- 'Fruit'

R 能够同时处理整个向量。利用这一点是加快速度的简单方法。

于 2013-07-19T20:42:13.450 回答