我收到了很多请求。他们都从
/1.1/handlers/monodoc.ashx?link=
然后遵循看起来像 .NET 的类。这些是什么,为什么 googlebot 要求它们?
我需要将其关闭,这样我的访问和错误日志才不会被污染。
Googlebot 将请求它知道的任何 URL,其中包括您自己可能没有生成的 URL。
例如,如果有一个论坛使用该 URI 链接到您的网站,Googlebot 将尝试抓取它以查看是否有任何值得索引的信息。
根据提供的 IP,我验证它确实是 Googlebot,因为反向 DNS 查找解析为“crawl-66-249-68-184.googlebot.com”,而正向 DNS 查找解析为“crawl-66-249-68-184” .googlebot.com' 解析回提供的 IP 地址。
如果该页面不应该存在,您可以做的最好的事情是响应 404 或 410 响应。如果您知道过去有哪些内容,您应该 301 将其重定向到您网站上的相关页面,以防其他人链接到这些页面……您不仅希望保留这些链接的链接信用,但对于关注该链接的用户来说,这只是一种更好的用户体验。如果没有将用户 301 重定向到的相关位置,您可以将他们重定向到您的主页,但要知道从 SEO 的角度来看,链接值会衰减,因为链接的相关性可能不会完全匹配您主页的内容。
绝对确保您没有使用 500 或 503 响应代码进行响应。如果您有大量 5xx 类型的响应,Googlebot 会认为它对您的网站的打击太大,并会限制它们的抓取。
最后,即使您发送 301、404 或发送 410 响应……预计 Googlebot 会在某个时间(例如,甚至几年后)点击这些 URL。我的网站每隔几周就会收到大量 Googlebot 流量,这些流量来自于早已失效的旧版 URI。那里有一些旧的硬皮网址,Googlebot 会不时遇到它们,然后尝试重新抓取它们。他们甚至会保留一个历史列表,当他们觉得有额外的带宽可以分配给您的站点时,他们会尝试抓取该列表。
TL;DR:不要出汗。Googlebot 会无缘无故点击这些网址。只需发送将是最佳用户体验的响应,就可以了。