我正在从使用切换twitteR
到Rtweet
自动搜索 Twitter 以查找新推文(twitteR
似乎将文本截断为 140 个字符)。searchTwitter()
twitteR 包中的函数包含一个sinceID
参数,允许我轻松搜索最新的推文并将它们附加到我现有的数据集。search_tweets()
我在包的功能中找不到类似的功能Rtweet
。有什么方法可以避免下载整个推文语料库然后删除重复项,而只下载最新的推文?
这是我目前使用的功能和示例:
library(tidyverse)
library(tidytext)
library(twitteR)
# FUNCTION ----------
searchtwitterlastweek_ft <- function(topic, sinceID){
today <- as.character(Sys.Date())
lastweek <- as.character(Sys.Date() - 6)
searchtwitterfortopic <- searchTwitteR(topic, n = 15000, since = lastweek, until = today, sinceID = sinceID)
if(!length(searchtwitterfortopic) == 0){
twListToDF(searchtwitterfortopic)
} else {
data.frame(list())
}
}
# LOAD DATASET FROM PREVIOUS WEEKS ---------
load("DATA/rstats.Rda")
df_r <- df_r %>%
arrange(desc(id))
# figure out last ID, i.e. last tweet on subject
lastid <- first(df_r$id)
df_temporary <- searchtwitterlastweek_ft("#rstats", lastid)
df_r <- rbind(df_r, df_temporary) %>%
arrange(desc(id))