应该使用什么 HTTP 响应代码来限制行为不端的网络爬虫:
是否应该在标题或正文中返回任何解释?
实际上,推荐的(RFC6585)http 状态是429 Too Many Requests。例如,它用于Twitter REST API Rate Limiter。
但是,如果您向 GSA充斥 requests,GSA 将在内部返回 503 Service Unavailable,因此 IMO 可以安全地假设它也期望外部站点以相同的方式运行。
我在节流解决方案中选择了503 Service Unavailable。