8

对于一个研究项目,我想获得最近 3 个月的 Twitter 消息。抛开技术挑战不谈,这可能吗?通过使用某种缓慢的轮询机制来阻止速率限制器?

Twitter API 声明“客户可以通过页面请求多达 3,200 个状态,并为时间线 REST API 计数参数”这些是每小时吗?每天?或者……曾经?

有什么建议么?它甚至在理论上是可能的吗?以前有人做过类似的事情吗?

谢谢!马可

4

7 回答 7

6

众所周知,Twitter 不会发布超过三周的“可用”推文。在某些情况下,您只能获得一周。您最好在接下来的三个月内存储推文。许多人正确地怀疑他们是否甚至被 Twitter 坚持。

您是否正在寻找任何推文?如果是这样,请查看 Streaming API 的status/sample方法。流式 API 使用持久的 HTTP 套接字,这对编程来说可能很痛苦,但是当你让它工作时它是非常优雅的。我建议设置一个小脚本将推文从状态/样本转储到数据库中。几天后,您应该拥有大量数据。

于 2009-11-14T05:21:57.960 回答
3

您可以使用 Search API,不要给它搜索,每页最多返回 100 个,然后每分钟通过每个页面两次(每小时 120 次 - 比速率限制少 30 倍)。但是,如果我的数学是正确的,那可能会给你每小时 720,000 条推文......问题是 Twitter 在过去 3 个月中增加了大约 17.5 亿条推文。所以如果我的数学是正确的,你需要 2361 天,或者 6 年才能完成。

您可以在 Google Groups 上的 Twitter 开发演讲中提出这个问题,或者联系 Twitter 以获取白名单,这样您每小时最多可以提出 20,000 个请求。

就个人而言,我认为这是不可能的。

于 2009-11-02T22:05:53.597 回答
1

DataSift 声称即将推出 twitter 历史数据 api,您可以在此处注册以收到通知。

于 2012-02-01T17:41:26.290 回答
0

Keyhole 可以为您提供 xls 中的历史推文或在可视仪表板中显示它们。预览仅对最近的几条推文进行采样,但是,如果您通过电子邮件发送它们,您可以请求历史数据。

请参阅:http: //keyhole.co/conversation_tracking

于 2014-01-28T20:38:08.340 回答
0

当您第一次提出问题时,这可能不存在,但“PeopleBrowsr”API 非常适合此问题,您可以通过一次 API 调用返回 1400 天:https ://developer.peoplebrowsr.com/pb

希望有帮助!

于 2012-11-01T15:25:05.820 回答
0

您可以使用 Gnip 的 Historic PowerTrack 工具读取 twitter 历史数据。它将使您可以访问自第一条推文以来的所有推特数据,而且它是非常简单的工具。

于 2015-12-11T13:00:00.303 回答
-2

您可以使用我公司构建的名为Sifter的服务免费估算数据范围和成本。如果您决定购买对数据的访问权限,则可以通过我们的文本分析平台DiscoverText访问该数据,您可以在其中搜索、过滤、重复数据删除、集群、人工代码和机器分类数据。

于 2017-02-07T14:39:41.290 回答