web - 什么是 monodoc.ashx，为什么 googlebot 要求它？

Question

我收到了很多请求。他们都从

/1.1/handlers/monodoc.ashx?link=

然后遵循看起来像 .NET 的类。这些是什么，为什么 googlebot 要求它们？

我需要将其关闭，这样我的访问和错误日志才不会被污染。

score 1 · Accepted Answer

Googlebot 将请求它知道的任何 URL，其中包括您自己可能没有生成的 URL。

例如，如果有一个论坛使用该 URI 链接到您的网站，Googlebot 将尝试抓取它以查看是否有任何值得索引的信息。

根据提供的 IP，我验证它确实是 Googlebot，因为反向 DNS 查找解析为“crawl-66-249-68-184.googlebot.com”，而正向 DNS 查找解析为“crawl-66-249-68-184” .googlebot.com' 解析回提供的 IP 地址。

如果该页面不应该存在，您可以做的最好的事情是响应 404 或 410 响应。如果您知道过去有哪些内容，您应该 301 将其重定向到您网站上的相关页面，以防其他人链接到这些页面……您不仅希望保留这些链接的链接信用，但对于关注该链接的用户来说，这只是一种更好的用户体验。如果没有将用户 301 重定向到的相关位置，您可以将他们重定向到您的主页，但要知道从 SEO 的角度来看，链接值会衰减，因为链接的相关性可能不会完全匹配您主页的内容。

绝对确保您没有使用 500 或 503 响应代码进行响应。如果您有大量 5xx 类型的响应，Googlebot 会认为它对您的网站的打击太大，并会限制它们的抓取。

最后，即使您发送 301、404 或发送 410 响应……预计 Googlebot 会在某个时间（例如，甚至几年后）点击这些 URL。我的网站每隔几周就会收到大量 Googlebot 流量，这些流量来自于早已失效的旧版 URI。那里有一些旧的硬皮网址，Googlebot 会不时遇到它们，然后尝试重新抓取它们。他们甚至会保留一个历史列表，当他们觉得有额外的带宽可以分配给您的站点时，他们会尝试抓取该列表。

TL;DR：不要出汗。Googlebot 会无缘无故点击这些网址。只需发送将是最佳用户体验的响应，就可以了。

web - 什么是 monodoc.ashx，为什么 googlebot 要求它？

1 回答 1

Related

Reference