我在 R 中有以下说明,用于data$theme
根据里面的文本更改变量的值data$paragraph
,其中包含长字符串:
lines <- grep('banana|apple', file$paragraph) # lines that match search terms
for (i in 1:length(lines)){
data[lines[i], 'theme'] <- 'Fruit'
}
这个命令的问题是它在处理大型数据集时效率极低。我的真实案例有超过20万行;每次替换我的电脑需要超过一秒钟的时间,我将不得不做超过 40,000 次订阅(而且我不能让我的整个脚本的这一小步骤花费超过 5 个小时才能完成)。我正在拼命寻找一种方法来加快速度,我敢打赌有一个简单的解决方案,但我想不出更好的方法来实现这一目标。帮助!