我正在尝试编写一个程序来检索用户在他们的 twitter 主页时间线上看到的所有推文(即,从他们的追随者那里,就像他们在 twitter.com 上看到的那样)。我意识到这是很多数据,其余的 API 有局限性。
最好的方法是什么?慢慢检索最后 200 条或任何限制的推文,记住每小时 350 个请求的限制?或者,即使这样,我还能走多远有硬性限制吗?
我相信流式 API 仅从当前点开始流式传输,所以我认为这不是一个选项。这是一个个人项目,所以我不能为任何提升的访问权限或任何东西支付太多费用。
我正在尝试编写一个程序来检索用户在他们的 twitter 主页时间线上看到的所有推文(即,从他们的追随者那里,就像他们在 twitter.com 上看到的那样)。我意识到这是很多数据,其余的 API 有局限性。
最好的方法是什么?慢慢检索最后 200 条或任何限制的推文,记住每小时 350 个请求的限制?或者,即使这样,我还能走多远有硬性限制吗?
我相信流式 API 仅从当前点开始流式传输,所以我认为这不是一个选项。这是一个个人项目,所以我不能为任何提升的访问权限或任何东西支付太多费用。
是的,您可以回溯多远是有限制的:
客户端可以通过 user_timeline REST API 方法的 page 和 count 参数访问理论上最多 3,200 个状态。其他时间线方法理论上最多有 800 个状态。超过限制的请求将导致状态代码为 200 的回复和请求格式的空结果。Twitter 仍然维护用户发送的所有推文的数据库。但是,为了保证网站的性能,这个人为的限制是暂时的。
来源:http ://dev.twitter.com/pages/every_developer
正如您所提到的,您需要逐页浏览返回的 200 个最大结果中的每一个,直到您达到该限制并获得空结果集,并确保不要达到每小时 350 个请求。根据用户在他们的时间线上有多少推文,也可能存在差距。