3

在我的 robots.txt 文件中,我有以下行

用户代理:Googlebot-Mobile 禁止:/

用户代理:GoogleBot 禁止:/

站点地图: http: //mydomain.com/sitemapindex.xml

我知道如果我放前 4 行,googlebot 不会索引网站,但是如果我放最后一行Sitemap: http://mydomain.com/sitemapindex.xml,googlebot 能索引网站吗?

谢谢,

4

3 回答 3

4

我针对我自己的域(每个页面都有一个站点地图条目)测试了您的 robots.txt,Googlebot 和 Googlebot-Mobile 返回它们被禁止访问。

基于此 - 我会说 robots.txt 文件优先于任何站点地图。

另外,从逻辑上讲-如果您阻止整个域,则不允许该机器人访问站点地图。站点地图条目只是告诉爬虫在哪里可以找到您的站点地图 - 而不是他们访问它的授权。

即使您允许使用站点地图,我认为机器人不会抓取您的站点 - 站点地图的设计更多地是为了告诉机器人多久抓取您的网站,而不是允许它们抓取什么。

于 2009-04-08T03:29:04.807 回答
2

不,我不认为谷歌会这样做。它实际上是一个好机器人和坏机器人的问题。即使您添加了 robots.txt 文件来限制机器人仍然可以抓取的某些区域。它实际上是一个是或否的问题。robots.txt 就像一个警告板,而不是安全墙。

于 2009-04-08T03:21:37.477 回答
1

googlebot 甚至无法触摸 sitemapindex.xml

  • robots.txt 是一个爬虫指令。
  • sitemap.xml 是通过 googlebot 爬虫获取的。
  • googlebot 不会访问 sitemapindex.xml
  • 没有抓取覆盖,没有索引,没有 SERP 列表

您可以使用 google 网站管理员工具 robots.txt 验证工具对此进行测试,并将其作为 googlebot(在实验室部分)功能获取。

于 2010-10-06T07:27:23.083 回答