1

twitter搜索api中分页+next_page的目的是什么?- 他们不会像人们期望的那样以数据为中心。

我正在尝试使用搜索 api,并注意到以下查询随时间而变化。此 url 是从搜索 api“next_page”返回的。

http://search.twitter.com/search.json?page=3&max_id=192123600919216128&q=IndieFilmLove&rpp=100&include_entities=1

在热门话题上点击刷新,您会注意到页面不是固定的。

当遍历一个热门话题的所有 15 页时,您会在每页的前几项上遇到重复项。

如果您正在聚合数据,分页变量 + next_page 似乎没用。几分钟后,第 1 页将成为热门话题的第 3 页。因此,由于新数据将页面向下推,因此您最终会在每页的 1-3 项上出现重复项。

避免这种情况的唯一方法是使用此处讨论的 next_page 和/或分页参数:

https://dev.twitter.com/discussions/3809

我将现有结果集中最旧的 id 作为 max_id 传递。我没有通过页面。

哪种方法更适合聚合数据?

我可以使用 next_page 但跳过在这 15 页运行中已经处理的状态。

或者

仅使用 max_id 并跳过已处理

===============

4

1 回答 1

2

http://dev.twitter.com/docs/working-with-timelines上的“使用时间线”文档中, Twitter 建议使用 max_id 参数进行游标,而不是尝试逐页浏览时间线。

于 2013-01-10T02:34:18.373 回答