robots.txt - robots.txt: user-agent: Googlebot disallow: / Google 仍在索引

Question

查看本站的 robots.txt：

内容是：

User-Agent: Googlebot
Disallow: /

那应该告诉谷歌不要索引该网站，不是吗？

如果属实，为什么该网站会出现在谷歌搜索中？

score 6 · Accepted Answer

除了必须等待之外，因为 Google 的索引更新需要一些时间，还要注意，如果您有其他网站链接到您的网站，仅 robots.txt 不足以删除您的网站。

引用 Google 的支持页面“从 Google 的搜索结果中删除页面或站点”：

如果页面仍然存在，但您不希望它出现在搜索结果中，请使用 robots.txt 阻止 Google 抓取它。请注意，一般情况下，即使 robots.txt 不允许某个 URL，如果我们在另一个网站上找到该页面的 URL，我们仍可能将该页面编入索引。但是，如果该页面在 robots.txt 中被阻止，并且该页面存在有效的删除请求， Google 不会将该页面编入索引。

上述文件中还提到了一种可能的替代解决方案：

或者，您可以使用 noindex 元标记。当我们在一个页面上看到这个标签时，即使其他页面链接到它，谷歌也会将该页面从我们的搜索结果中完全删除。如果您无法直接访问站点服务器，这是一个很好的解决方案。（您需要能够编辑页面的 HTML 源代码）。

score 1 · Accepted Answer

如果您只是添加了这个，那么您将不得不等待 - 这不是即时的 - 直到 Googlebot 回来重新启动该站点并看到 robots.txt，该站点仍将在他们的数据库中。

我怀疑它是否相关，但您可能希望将您的“代理”更改为“代理”——谷歌很可能对此不区分大小写，但严格遵循标准不会有什么坏处。

score 1 · Accepted Answer

我可以确认 Google 不尊重机器人排除文件。这是我的文件，它是我在将此来源上线之前创建的：

https://git.habd.as/robots.txt

以及文件的全部内容：

User-agent: *
Disallow:

User-agent: Google
Disallow: /

谷歌仍然将其编入索引。

在去年 3 月取消我的帐户后，我没有使用 Google，并且从未将该网站添加到 Yandex 之外的网站管理员控制台，这让我有两个假设：

谷歌正在抓取 Yandex
Google 不遵守机器人排除标准

我还没有 grepped 我的日志，但我会的，我的假设是我会在那里找到行为不端的谷歌蜘蛛。

robots.txt - robots.txt: user-agent: Googlebot disallow: / Google 仍在索引

3 回答 3

Related

Reference