刚刚安装了 rtweet 包并开始下载推文。我想在接下来的 20 周内收集包含“腐败”一词的推文。然而,推文的流式传输和下载让 R 很忙,我不能将它用于其他任务。有没有办法停止流式传输并再次继续,在我停止的时间点继续?
我当前的代码如下所示,并且运行良好:
library(rtweet)
consumer_key <- "xxxxxxxxxxx"
consumer_secret <- "xxxxxxxxx"
create_token(app = "xxxxx", consumer_key, consumer_secret, set_renv = TRUE)
twentyweeks <- 60L * 60L * 24L * 7L * 20L
corruption <- "Corruption"
stream_tweets2(q = corruption, parse = FALSE, timeout = twentyweeks, dir = "corruption-stream", append = TRUE)
rt <- parse_stream("stream-1.json")
另一个相关的问题是,我是否可以在这 20 周内每天随机抽取推文样本。我有一种感觉,如果我继续下载所有包含“腐败”一词的推文,我最终会得到一个比我的本地内存大几倍的数据库(但这也可能是一个非常错误的估计)。
非常感谢您的帮助!:)