api - 多久运行一次 cron 来挖掘 Twitter 公共时间线？

Question

依赖于 twitter 公开时间线的 webapps，他们多久收集一次数据？每分钟必须有数十万条消息，对吗？他们如何设法收集所有推文，而又不遗漏任何一条？

score 2 · Accepted Answer

公共时间线不再是挖掘数据的好地方。Twitter 现在使用它的Streaming API来疯狂地输出推文。与公共时间线最接近的比较是spritzer方法，但这只包括一个小样本。如果您需要收集除 spritzer 方法之外的所有（或更多）推文，则需要签署书面协议才能访问其他 Streaming API（HTTP 推送）提要，例如返回所有公共推文的firehose提要。

score 2 · Accepted Answer

一些服务（Friendfeed 就是一个很好的例子）被授予访问Twitter 流 API的权限，也就是“firehose”。它需要批准和书面协议。

score 1 · Accepted Answer

到这里：

http://twitter.com/help/request_whitelisting

如果每小时 100 个请求还不够，则将您的帐户列入白名单（允许每小时 20,000 个）。

@ceejayoz 它不是 100 个 GET 请求，它的 100 个请求通常不包括一些请求，例如 verify_credentials 和 rate_limit_status。

score 1 · Accepted Answer

如前所述，twitter API 是速率受限的。公共时间线 (twitter.com/public_timeline) 在同一意义上没有速率限制，但它仅每 5 秒更新一次，因此大多数推文从未出现在那里。

我认为有三四家公司可以使用消防软管，因为 Twitter 的完整提要被称为。FriendFeed 就是其中之一。另一个是 Gnip。Gnip 将饲料转售给其他公司。这可能是获得完整 Twitter 提要的唯一可行方法。

api - 多久运行一次 cron 来挖掘 Twitter 公共时间线？

4 回答 4

Related

Reference