将只抓取一个根页面的网络爬虫放入一个负责任/合乎道德的时间延迟是多少?
我在以下调用
requests.get(url) 之间使用 time.sleep(#)
我正在寻找一个关于时间表的粗略想法:1. 过于保守 2. 标准 3. 会引起问题/让你注意到
我想触摸满足特定标准的每一页(至少 20,000,可能更多)。这在合理的时间范围内可行吗?
编辑
这个问题不是关于避免被阻止(尽管任何相关信息将不胜感激),而是什么时间延迟不会对主机网站/服务器造成问题。我已经测试了 10 秒的时间延迟和大约 50 页。我只是不知道我是否过于谨慎。