我管理着几个网站,其中一个在早上工作时间被蜘蛛骚扰。一般来说,谷歌机器人等会在非高峰时段爬行,但这不尊重一般礼貌。此外,它通过代理传递,所有传入的 IP 都解析为俄罗斯 IP。(所以我不能简单地联系创作者。)
过滤掉不需要的蜘蛛流量的通常形式是什么?我目前实现的逻辑只是在某个阈值后停止接受来自同一网站的请求的连接,但我担心这会过滤来自繁忙客户的想要的流量。我还听说有人检查传入的用户代理并基于此进行过滤,但在恶意机器人的情况下,他们可以简单地提供一个新的用户代理签名,对吧?
它已经关闭了我的服务器几次,我不得不暂时更改客户的域名,但这对他们的 SEO 来说将是毁灭性的。