6

查看本站的 robots.txt:

fr2.dk/robots.txt

内容是:

User-Agent: Googlebot
Disallow: /

那应该告诉谷歌不要索引该网站,不是吗?

如果属实,为什么该网站会出现在谷歌搜索中?

4

3 回答 3

6

除了必须等待之外,因为 Google 的索引更新需要一些时间,还要注意,如果您有其他网站链接到您的网站,仅 robots.txt 不足以删除您的网站。

引用 Google 的支持页面“从 Google 的搜索结果中删除页面或站点”

如果页面仍然存在,但您不希望它出现在搜索结果中,请使用 robots.txt 阻止 Google 抓取它。请注意,一般情况下,即使 robots.txt 不允许某个 URL,如果我们在另一个网站上找到该页面的 URL,我们仍可能将该页面编入索引。但是,如果该页面在 robots.txt 中被阻止,并且该页面存在有效的删除请求, Google 不会将该页面编入索引

上述文件中还提到了一种可能的替代解决方案:

或者,您可以使用 noindex 元标记。当我们在一个页面上看到这个标签时,即使其他页面链接到它,谷歌也会将该页面从我们的搜索结果中完全删除。如果您无法直接访问站点服务器,这是一个很好的解决方案。(您需要能够编辑页面的 HTML 源代码)。

于 2011-01-22T16:58:11.567 回答
1

如果您只是添加了这个,那么您将不得不等待 - 这不是即时的 - 直到 Googlebot 回来重新启动该站点并看到 robots.txt,该站点仍将在他们的数据库中。

我怀疑它是否相关,但您可能希望将您的“代理”更改为“代理”——谷歌很可能对此不区分大小写,但严格遵循标准不会有什么坏处。

于 2011-01-22T16:53:36.353 回答
1

我可以确认 Google 不尊重机器人排除文件。这是我的文件,它是我在将此来源上线之前创建的:

https://git.habd.as/robots.txt

以及文件的全部内容:

User-agent: *
Disallow:

User-agent: Google
Disallow: /

谷歌仍然将其编入索引。

在去年 3 月取消我的帐户后,我没有使用 Google,并且从未将该网站添加到 Yandex 之外的网站管理员控制台,这让我有两个假设:

  1. 谷歌正在抓取 Yandex
  2. Google 不遵守机器人排除标准

我还没有 grepped 我的日志,但我会的,我的假设是我会在那里找到行为不端的谷歌蜘蛛。

于 2018-10-10T04:13:37.793 回答