0

我们正在使用网络抓取工具,并将其设置为具有随机功能设置的睡眠功能(因此每次抓取之间的时间不同)但在 20-30 次请求后我们仍然被雅虎阻止.

有谁知道是否有限制(即:每分钟 20 个请求,每小时 200 个) 现在我们每个请求之间的平均时间约为 3-6 秒。谢谢你的帮助

4

2 回答 2

0

每 3-6 秒 1 个请求非常低,因此您的爬虫可能还有另一个问题。

一些想法:

  • 将 User-Agent 设置为非可疑的东西
  • 将Referer头设置为同一个域
  • 尝试从其他 IP 运行爬虫,以防您当前的 IP 被列入黑名单
  • 尝试维护 cookie

如果您使用像Mechanize这样的更高级别的库,这一切都会变得更容易。

于 2010-04-21T06:10:02.063 回答
0

所以答案是 5000 个查询。取自

http://forums.digitalpoint.com/showthread.php?t=736784

http:// 开发者。雅虎。com/search/rate.html

于 2010-04-21T23:50:52.880 回答