1

我对 google bot 有一点问题,我有一个在 windows server 2009 上运行的服务器,系统名为 Workcube,它在 Coldfusion 上运行,内置了一个错误报告器,因此我收到了每条错误消息,特别是它与谷歌机器人,试图去一个不存在的虚假链接!链接如下所示:

  1. http://www.bilgiteknolojileri.net/index.cfm?fuseaction=objects2.view_product_list&product_catid=282&HIERARCHY=215.005&brand_id=hoyrrolmwdgldah
  2. http://www.bilgiteknolojileri.net/index.cfm?fuseaction=objects2.view_product_list&product_catid=145&HIERARCHY=200.003&brand_id=hoyrrolmwdgldah
  3. http://www.bilgiteknolojileri.net/index.cfm?fuseaction=objects2.view_product_list&product_catid=123&HIERARCHY=110.006&brand_id=xxblpflyevlitojg
  4. http://www.bilgiteknolojileri.net/index.cfm?fuseaction=objects2.view_product_list&product_catid=1&HIERARCHY=100&brand_id=xxblpflyevlitojg

当然,像brand_id=hoyrrolmwdgldah或brand_id=xxblpflyevlitojg这样的定义是错误的,我不知道可能是什么问题?!需要建议!谢谢大家的帮助!;)

4

1 回答 1

1

您可能希望使用 Google 网站管理员工具验证您的网站,该工具将提供发现错误的 URL。

您的日志也是有效的,但您需要验证它确实是 Googlebot 访问了您的网站,而不是有人欺骗了他们的用户代理。

以下是执行此操作的说明:http: //googlewebmastercentral.blogspot.com/2006/09/how-to-verify-googlebot.html

本质上,您需要进行反向 DNS 查找,然后在从反向查找中接收主机后进行正向 DNS 查找。

一旦您确认它是真正的 Googlebot,您就可以开始进行故障排除了。您会看到 Googlebot 不会请求它以前没有自然看到的 URL,这意味着 Googlebot 不应该发出直接的对象引用请求。我怀疑这是一个带有 Googlebot 用户代理的流氓机器人,但如果不是,您可能需要查看您的网站,看看您是否不小心链接到这些页面。

不幸的是,您发布了完整的 URL,因此即使您清理了您的网站,Googelbot 也会看到来自 Stack Overflow 的链接并继续抓取它们,因为它会在他们的抓取队列中。

我建议 301 将这些 URL 重定向到对您的用户有意义的地方。否则,我会对这些页面进行 404 或 410 处理,以便 Google 知道从其索引中删除这些页面。

此外,如果您不想将这些页面编入索引,我建议您将路径添加到您的 robots.txt 文件中,这样 Googlebot 就无法继续请求更多此类页面。

不幸的是,没有真正的好方法可以告诉 Googlebot 永远不再抓取这些 URL。您可以随时进入 Google 网站管理员工具并请求从其索引中删除这些 URL,这可能会阻止 Googlebot 再次抓取它们,但这并不能保证这一点。

于 2011-11-04T05:45:02.327 回答