正如标题所述,我试图找出在不被存档页面阻止的情况下刮取 pastebin 的最佳速率。有没有其他人知道这一点?
问问题
917 次
2 回答
1
我遇到过类似的问题。最后,我不得不求助于让一个服务器负责每 3 分钟收集一次 ID 号(这大约是我们不会错过任何一个的速度,除非有人发疯!),然后创建一个 API 来公开这些ID 号,因此所有从不同 IP 地址运行的一组外部服务器都可以收集粘贴并将它们保存到中央数据库。中央脚本按顺序将 serverID 分配给每个 id 号,因此没有冲突或重复抓取,结果是每个“slave scraper”在抓取之间总共暂停了 4 分钟,并且收获刚刚设法跟上 ID 收集. 这并没有触发 pastebins 烦人的 IP 速率限制。如果我为我可以免费获得的东西付费,那该死的!
于 2020-04-15T15:59:48.547 回答
0
我不知道这是否是您的意思,但http://pastebin.com/api_scraping_faq API 文档说“我们建议每秒发出的请求不要超过 1 个。” 任何大于此的都应该没问题
于 2017-03-02T23:01:39.107 回答