0

尝试通过从 Twitter REST API 中提取来创建与关键字相关联的 Twitter 用户名数据框。但是searchTwitter()在许多搜索词(例如#rstats)上使用的查询,即使对于像 之类的大样本,也会n = 1000返回高度(>90%)的重复推文。

一个具体的例子是:

tweets <- searchTwitter("#rstats", n = 1000)
tweets.df <- do.call("rbind", lapply(tweets, as.data.frame))

df.undup <- df[duplicated(tweets.df) == FALSE,]
dim(df.undup)

我想知道如果搜索词相对稀缺,这是否是由分页限制引起的?

4

1 回答 1

1

首先,您的代码中的第 3 行应该是df.undup <- tweets.df[duplicated(tweets.df) == FALSE,]

我猜你得到少于 1000 条推文,当你运行上面的代码时(我得到了 604,结果 dim(df.undup)604 10)。所以我猜,问题不在于重复出现,而是推文的数量少于 1000 条。

如果您查看创建日期,最早的推文来自 3 月 14 日(一周前)。Twitter API 通常不允许访问超过 7-9 天的推文。我想这就是为什么您收到的推文数量较少的原因。

要检查,看看是否dim(tweets.df)dim(undup.df)返回相同的东西。

于 2013-03-21T13:27:12.607 回答