0

我正在从使用切换twitteRRtweet自动搜索 Twitter 以查找新推文(twitteR似乎将文本截断为 140 个字符)。searchTwitter()twitteR 包中的函数包含一个sinceID参数,允许我轻松搜索最新的推文并将它们附加到我现有的数据集。search_tweets()我在包的功能中找不到类似的功能Rtweet。有什么方法可以避免下载整个推文语料库然后删除重复项,而只下载最新的推文?

这是我目前使用的功能和示例:

library(tidyverse)
library(tidytext)
library(twitteR)

# FUNCTION ----------
searchtwitterlastweek_ft <- function(topic, sinceID){
  today <- as.character(Sys.Date())
  lastweek <- as.character(Sys.Date() - 6)
  searchtwitterfortopic <- searchTwitteR(topic, n = 15000, since = lastweek, until = today, sinceID = sinceID)
  if(!length(searchtwitterfortopic) == 0){
    twListToDF(searchtwitterfortopic)
  } else {
    data.frame(list())
  }
}

# LOAD DATASET FROM PREVIOUS WEEKS ---------
load("DATA/rstats.Rda")

df_r <- df_r %>%
  arrange(desc(id))

# figure out last ID, i.e. last tweet on subject
lastid <- first(df_r$id)

df_temporary <- searchtwitterlastweek_ft("#rstats", lastid)

df_r <- rbind(df_r, df_temporary) %>%
  arrange(desc(id))
4

1 回答 1

0

查看 rtweet 包的 stream_tweet 函数,它应该可以帮助你 =)

于 2021-04-12T11:28:45.870 回答