依赖于 twitter 公开时间线的 webapps,他们多久收集一次数据?每分钟必须有数十万条消息,对吗?他们如何设法收集所有推文,而又不遗漏任何一条?
4 回答
公共时间线不再是挖掘数据的好地方。Twitter 现在使用它的Streaming API来疯狂地输出推文。与公共时间线最接近的比较是spritzer方法,但这只包括一个小样本。如果您需要收集除 spritzer 方法之外的所有(或更多)推文,则需要签署书面协议才能访问其他 Streaming API(HTTP 推送)提要,例如返回所有公共推文的firehose提要。
一些服务(Friendfeed 就是一个很好的例子)被授予访问Twitter 流 API的权限,也就是“firehose”。它需要批准和书面协议。
到这里:
http://twitter.com/help/request_whitelisting
如果每小时 100 个请求还不够,则将您的帐户列入白名单(允许每小时 20,000 个)。
@ceejayoz 它不是 100 个 GET 请求,它的 100 个请求通常不包括一些请求,例如 verify_credentials 和 rate_limit_status。
如前所述,twitter API 是速率受限的。公共时间线 (twitter.com/public_timeline) 在同一意义上没有速率限制,但它仅每 5 秒更新一次,因此大多数推文从未出现在那里。
我认为有三四家公司可以使用消防软管,因为 Twitter 的完整提要被称为。FriendFeed 就是其中之一。另一个是 Gnip。Gnip 将饲料转售给其他公司。这可能是获得完整 Twitter 提要的唯一可行方法。