-1

我管理着几个网站,其中一个在早上工作时间被蜘蛛骚扰。一般来说,谷歌机器人等会在非高峰时段爬行,但这不尊重一般礼貌。此外,它通过代理传递,所有传入的 IP 都解析为俄罗斯 IP。(所以我不能简单地联系创作者。)

过滤掉不需要的蜘蛛流量的通常形式是什么?我目前实现的逻辑只是在某个阈值后停止接受来自同一网站的请求的连接,但我担心这会过滤来自繁忙客户的想要的流量。我还听说有人检查传入的用户代理并基于此进行过滤,但在恶意机器人的情况下,他们可以简单地提供一个新的用户代理签名,对吧?

它已经关闭了我的服务器几次,我不得不暂时更改客户的域名,但这对他们的 SEO 来说将是毁灭性的。

4

1 回答 1

1

我目前实现的逻辑只是在某个阈值后停止接受来自同一网站的请求的连接,但我担心这会过滤来自繁忙客户的想要的流量。

如果您的阈值是每秒请求数,那么人们就不会那么快。当然,蜘蛛可以放慢速度以低于阈值。

我还听说有人检查传入的用户代理并基于此进行过滤,但在恶意机器人的情况下,他们可以简单地提供一个新的用户代理签名,对吧?

对。由于您以某种方式检测到此蜘蛛,您可以尝试检查用户代理。

您还可以阻止俄罗斯代理的 IP 地址,如果这不会让有效客户远离。

我想,恭喜你拥有一个让中国黑客感兴趣的网站。

于 2013-06-05T19:02:36.917 回答