在我的 apache 日志中,我有很多这样的东西:
<IP ADDRESS> - - <DATE> "GET /forward?path=http://vary_bad_link_not_for_children" <NUM1> <NUM2> "-" <String>
<NUM1>:302 或 404
<NUM2>:5XX、6XX 或 11XX
<字符串>:
“Mozilla/5.0(兼容;AhrefsBot/5.1;+ http://ahrefs.com/robot/)”
“Mozilla/5.0(兼容;MJ12bot/v1.4.5;http://www.majestic12.co.uk/bot.php? + )”
“Mozilla/5.0(兼容;Googlebot/2.1;+...链接)”
“Mozilla/5.0(兼容;Exabot/3.0;+...链接)”
ETC...
我用这个正则表达式为fail2ban做了一个监狱:
failregex = ^<HOST> .*"GET .*/forward\?path=
除了被禁止的 IP 地址(见日志中的 <IP ADDRESS>)是 google 和其他非常知名的公司的 IP 之外,一切都运行良好。
我真的不明白为什么会这样;我的意思是我为什么要禁止谷歌和其他公司,如果不是,我为什么要接受对我的服务器的所有这些不适当的请求。
我想澄清我的问题,因为它解释得不好:
1-为什么谷歌 IP(和其他知名公司)正在做那些“色情”请求
2-“/forward?path=...”有什么意义吗?它是 apache 功能吗?
3-如何在不停止“好”机器人引用我的网站的情况下处理这个问题。
提前感谢您的帮助!