3

I'm building a component to ban spam bots' IPs based on the invalid requests that they make all the time, and that no user could ever make by mistake.

For example, they are always trying to submit empty forms, or making GET requests to urls that should only receive POST requests.

What I want to know is if I am at risk of banning google bots by doing so.

Are they smart enough not to crawl every url they encounter? Do they avoid form urls?

4

2 回答 2

1

Googlebot 跟随链接。它只会请求找到链接的页面。当然,该链接不必驻留在您的网站上,因此可能不受您的直接控制。

Googlebot 只会发出 GET 请求,因为根据 RFC,GET 请求不能有副作用。因此,它们无法更改服务器上的状态。提示:切勿使用链接(即“获取”)来执行或确认对您的站点进行的某些更改,否则任何网络蜘蛛都可能触发它。

为了安全起见,您拥有的每个更改站点状态的 CGI 都应验证传入请求确实是 POST。

于 2011-05-31T15:31:17.767 回答
1

Googlebot 确实提出了无效请求。我发现一些使用“发件人:”标头发出的请求在标头指定的邮箱名称中不包含“@”符号。其他机器人有时也会这样做。因此,请注意请求中的无效可选标头数据。

于 2019-12-21T07:21:53.007 回答