尝试通过从 Twitter REST API 中提取来创建与关键字相关联的 Twitter 用户名数据框。但是searchTwitter()
在许多搜索词(例如#rstats
)上使用的查询,即使对于像 之类的大样本,也会n = 1000
返回高度(>90%)的重复推文。
一个具体的例子是:
tweets <- searchTwitter("#rstats", n = 1000)
tweets.df <- do.call("rbind", lapply(tweets, as.data.frame))
df.undup <- df[duplicated(tweets.df) == FALSE,]
dim(df.undup)
我想知道如果搜索词相对稀缺,这是否是由分页限制引起的?