robots.txt - googlebot 会将我的网站编入索引吗？

Question

在我的 robots.txt 文件中，我有以下行

用户代理：Googlebot-Mobile 禁止：/

用户代理：GoogleBot 禁止：/

我知道如果我放前 4 行，googlebot 不会索引网站，但是如果我放最后一行Sitemap: http://mydomain.com/sitemapindex.xml，googlebot 能索引网站吗？

谢谢，

score 4 · Accepted Answer

我针对我自己的域（每个页面都有一个站点地图条目）测试了您的 robots.txt，Googlebot 和 Googlebot-Mobile 返回它们被禁止访问。

基于此 - 我会说 robots.txt 文件优先于任何站点地图。

另外，从逻辑上讲-如果您阻止整个域，则不允许该机器人访问站点地图。站点地图条目只是告诉爬虫在哪里可以找到您的站点地图 - 而不是他们访问它的授权。

即使您允许使用站点地图，我认为机器人不会抓取您的站点 - 站点地图的设计更多地是为了告诉机器人多久抓取您的网站，而不是允许它们抓取什么。

score 2 · Accepted Answer

不，我不认为谷歌会这样做。它实际上是一个好机器人和坏机器人的问题。即使您添加了 robots.txt 文件来限制机器人仍然可以抓取的某些区域。它实际上是一个是或否的问题。robots.txt 就像一个警告板，而不是安全墙。

score 1 · Accepted Answer

googlebot 甚至无法触摸 sitemapindex.xml

您可以使用 google 网站管理员工具 robots.txt 验证工具对此进行测试，并将其作为 googlebot（在实验室部分）功能获取。

3 回答 3