json - Reddit 的 JSON API 是否有未记录的人为限制来防止抓取？

翻译自：https://stackoverflow.com/questions/8611046 2011-12-23T00:03:07.823

1497 次

2

看起来 JSON API 返回的结果与浏览器截然不同。

将此 URL 放入浏览器并查看结果，然后使用 API Kitchen、Curl、Mechanize 等进行尝试

http://www.reddit.com/r/guitar/new/.json?limit=100

您使用浏览器获得 100 个结果。使用检索它的非浏览器方法可以获得 1-2 个结果。

这是一个错误，还是有意设计来限制网络爬虫从 Reddit 收集的内容？在较大的 subreddit 上，它会导致令人难以置信的不一致结果，并且“after”参数对于分页来说是不准确的，从而导致大量重复的结果。

但是，我找不到任何文档表明这是故意的，而不是错误。如果有限制，那很酷，我只想知道它们是什么，这样我就可以在我的代码中正确地尊重它们。

0 回答 0