在我的 robots.txt 文件中,我有以下行
用户代理:Googlebot-Mobile 禁止:/
用户代理:GoogleBot 禁止:/
站点地图: http: //mydomain.com/sitemapindex.xml
我知道如果我放前 4 行,googlebot 不会索引网站,但是如果我放最后一行Sitemap: http://mydomain.com/sitemapindex.xml,googlebot 能索引网站吗?
谢谢,
在我的 robots.txt 文件中,我有以下行
用户代理:Googlebot-Mobile 禁止:/
用户代理:GoogleBot 禁止:/
站点地图: http: //mydomain.com/sitemapindex.xml
我知道如果我放前 4 行,googlebot 不会索引网站,但是如果我放最后一行Sitemap: http://mydomain.com/sitemapindex.xml,googlebot 能索引网站吗?
谢谢,
我针对我自己的域(每个页面都有一个站点地图条目)测试了您的 robots.txt,Googlebot 和 Googlebot-Mobile 返回它们被禁止访问。
基于此 - 我会说 robots.txt 文件优先于任何站点地图。
另外,从逻辑上讲-如果您阻止整个域,则不允许该机器人访问站点地图。站点地图条目只是告诉爬虫在哪里可以找到您的站点地图 - 而不是他们访问它的授权。
即使您允许使用站点地图,我认为机器人不会抓取您的站点 - 站点地图的设计更多地是为了告诉机器人多久抓取您的网站,而不是允许它们抓取什么。
不,我不认为谷歌会这样做。它实际上是一个好机器人和坏机器人的问题。即使您添加了 robots.txt 文件来限制机器人仍然可以抓取的某些区域。它实际上是一个是或否的问题。robots.txt 就像一个警告板,而不是安全墙。
googlebot 甚至无法触摸 sitemapindex.xml
您可以使用 google 网站管理员工具 robots.txt 验证工具对此进行测试,并将其作为 googlebot(在实验室部分)功能获取。