查看本站的 robots.txt:
内容是:
User-Agent: Googlebot
Disallow: /
那应该告诉谷歌不要索引该网站,不是吗?
如果属实,为什么该网站会出现在谷歌搜索中?
查看本站的 robots.txt:
内容是:
User-Agent: Googlebot
Disallow: /
那应该告诉谷歌不要索引该网站,不是吗?
如果属实,为什么该网站会出现在谷歌搜索中?
除了必须等待之外,因为 Google 的索引更新需要一些时间,还要注意,如果您有其他网站链接到您的网站,仅 robots.txt 不足以删除您的网站。
引用 Google 的支持页面“从 Google 的搜索结果中删除页面或站点”:
如果页面仍然存在,但您不希望它出现在搜索结果中,请使用 robots.txt 阻止 Google 抓取它。请注意,一般情况下,即使 robots.txt 不允许某个 URL,如果我们在另一个网站上找到该页面的 URL,我们仍可能将该页面编入索引。但是,如果该页面在 robots.txt 中被阻止,并且该页面存在有效的删除请求, Google 不会将该页面编入索引。
上述文件中还提到了一种可能的替代解决方案:
或者,您可以使用 noindex 元标记。当我们在一个页面上看到这个标签时,即使其他页面链接到它,谷歌也会将该页面从我们的搜索结果中完全删除。如果您无法直接访问站点服务器,这是一个很好的解决方案。(您需要能够编辑页面的 HTML 源代码)。
如果您只是添加了这个,那么您将不得不等待 - 这不是即时的 - 直到 Googlebot 回来重新启动该站点并看到 robots.txt,该站点仍将在他们的数据库中。
我怀疑它是否相关,但您可能希望将您的“代理”更改为“代理”——谷歌很可能对此不区分大小写,但严格遵循标准不会有什么坏处。
我可以确认 Google 不尊重机器人排除文件。这是我的文件,它是我在将此来源上线之前创建的:
https://git.habd.as/robots.txt
以及文件的全部内容:
User-agent: *
Disallow:
User-agent: Google
Disallow: /
谷歌仍然将其编入索引。
在去年 3 月取消我的帐户后,我没有使用 Google,并且从未将该网站添加到 Yandex 之外的网站管理员控制台,这让我有两个假设:
我还没有 grepped 我的日志,但我会的,我的假设是我会在那里找到行为不端的谷歌蜘蛛。