r - R (2.15.2) 的 twitteR 包中的 searchTwitter() - 大量重复推文

Question

尝试通过从 Twitter REST API 中提取来创建与关键字相关联的 Twitter 用户名数据框。但是searchTwitter()在许多搜索词（例如#rstats）上使用的查询，即使对于像之类的大样本，也会n = 1000返回高度（>90%）的重复推文。

一个具体的例子是：

tweets <- searchTwitter("#rstats", n = 1000)
tweets.df <- do.call("rbind", lapply(tweets, as.data.frame))

df.undup <- df[duplicated(tweets.df) == FALSE,]
dim(df.undup)

我想知道如果搜索词相对稀缺，这是否是由分页限制引起的？

score 1 · Accepted Answer

首先，您的代码中的第 3 行应该是df.undup <- tweets.df[duplicated(tweets.df) == FALSE,]？

我猜你得到少于 1000 条推文，当你运行上面的代码时（我得到了 604，结果 dim(df.undup)是604 10）。所以我猜，问题不在于重复出现，而是推文的数量少于 1000 条。

如果您查看创建日期，最早的推文来自 3 月 14 日（一周前）。Twitter API 通常不允许访问超过 7-9 天的推文。我想这就是为什么您收到的推文数量较少的原因。

要检查，看看是否dim(tweets.df)并dim(undup.df)返回相同的东西。

r - R (2.15.2) 的 twitteR 包中的 searchTwitter() - 大量重复推文

1 回答 1

Related

Reference