0

这里还有其他问题,如果您同时拥有两个元机器人会发生什么,我想我明白发生了什么,直到我在谷歌网站管理员网站上找到这个答案:https: //support.google.com/webmasters/answer/93710

它是这样说的:

重要的!要使 noindex 元标记生效,该页面不得被 robots.txt 文件阻止。如果页面被 robots.txt 文件阻止,爬虫将永远不会看到 noindex 标记,并且该页面仍然可以出现在搜索结果中,例如如果其他页面链接到它。

这就是说,如果另一个站点链接到我的页面,那么即使我的页面被 robots.txt 阻止,我的页面也会被编入索引。

这意味着阻止我的页面被索引的唯一方法是允许它在 robots.txt 中并使用元机器人标签来阻止它被索引。这似乎完全违背了 robots.txt 的目的

4

1 回答 1

0

Disallow在 robots.txt 中是为了防止抓取(= 机器人访问您的页面),而不是为了防止索引(= 指向您的页面的链接,可能带有元数据,被添加到数据库中)。

如果您在 robots.txt 中阻止对某个页面的抓取,则表明机器人不应该访问该页面(例如,因为没有什么有趣的东西可看,或者因为它会浪费您的资源),而不是该页面的 URL 应该是被认为是秘密。

robots.txt 的原始规范没有定义阻止索引的方法。Google似乎支持Noindexrobots.txt 中的一个字段,但只是作为尚未记录的“实验性功能”。

于 2016-07-05T02:20:31.390 回答