看起来 JSON API 返回的结果与浏览器截然不同。
将此 URL 放入浏览器并查看结果,然后使用 API Kitchen、Curl、Mechanize 等进行尝试
http://www.reddit.com/r/guitar/new/.json?limit=100
您使用浏览器获得 100 个结果。使用检索它的非浏览器方法可以获得 1-2 个结果。
这是一个错误,还是有意设计来限制网络爬虫从 Reddit 收集的内容?在较大的 subreddit 上,它会导致令人难以置信的不一致结果,并且“after”参数对于分页来说是不准确的,从而导致大量重复的结果。
但是,我找不到任何文档表明这是故意的,而不是错误。如果有限制,那很酷,我只想知道它们是什么,这样我就可以在我的代码中正确地尊重它们。