python - 负责任的时间延迟 - 网络爬虫

Question

将只抓取一个根页面的网络爬虫放入一个负责任/合乎道德的时间延迟是多少？

我在以下调用
requests.get(url) 之间使用 time.sleep(#)

我正在寻找一个关于时间表的粗略想法：1. 过于保守 2. 标准 3. 会引起问题/让你注意到

我想触摸满足特定标准的每一页（至少 20,000，可能更多）。这在合理的时间范围内可行吗？

编辑
这个问题不是关于避免被阻止（尽管任何相关信息将不胜感激），而是什么时间延迟不会对主机网站/服务器造成问题。我已经测试了 10 秒的时间延迟和大约 50 页。我只是不知道我是否过于谨慎。

score 1 · Accepted Answer

我会检查他们的 robots.txt。如果它列出了爬行延迟，请使用它！如果没有，请尝试一些合理的方法（这取决于页面的大小）。如果是大页面，请尝试 2/秒。如果它是一个简单的 .txt 文件，10/sec 应该没问题。

如果一切都失败了，请联系网站所有者，看看他们能够很好地处理什么。

_{（我假设这是一个带宽最小的业余服务器）}

1 回答 1