meta-tags - robots.txt 和元机器人标签之间的交互

Question

这里还有其他问题，如果您同时拥有两个元机器人会发生什么，我想我明白发生了什么，直到我在谷歌网站管理员网站上找到这个答案：https: //support.google.com/webmasters/answer/93710

它是这样说的：

重要的！要使 noindex 元标记生效，该页面不得被 robots.txt 文件阻止。如果页面被 robots.txt 文件阻止，爬虫将永远不会看到 noindex 标记，并且该页面仍然可以出现在搜索结果中，例如如果其他页面链接到它。

这就是说，如果另一个站点链接到我的页面，那么即使我的页面被 robots.txt 阻止，我的页面也会被编入索引。

这意味着阻止我的页面被索引的唯一方法是允许它在 robots.txt 中并使用元机器人标签来阻止它被索引。这似乎完全违背了 robots.txt 的目的

score 0 · Accepted Answer

Disallow在 robots.txt 中是为了防止抓取（= 机器人访问您的页面），而不是为了防止索引（= 指向您的页面的链接，可能带有元数据，被添加到数据库中）。

如果您在 robots.txt 中阻止对某个页面的抓取，则表明机器人不应该访问该页面（例如，因为没有什么有趣的东西可看，或者因为它会浪费您的资源），而不是该页面的 URL 应该是被认为是秘密。

robots.txt 的原始规范没有定义阻止索引的方法。Google似乎支持Noindexrobots.txt 中的一个字段，但只是作为尚未记录的“实验性功能”。

1 回答 1