7

我知道这个问题被问了很多次,但我想更具体一点。

我有一个开发域并将那里的站点移到一个子文件夹中。让我们说:

http://www.example.com/

到:

http://www.example.com/backup

所以我希望子文件夹根本不被搜索引擎索引。我已将 robots.txt 与以下内容放在子文件夹中(我可以将其放在子文件夹中还是必须始终位于根目录,因为我希望根目录的内容对搜索引擎可见):

User-agent: *
Disallow: /

也许我需要替换它并将以下内容放入根目录:

User-agent: *
Disallow: /backup

另一件事是,我在某处读到某些机器人不尊重 robots.txt 文件,所以只需将 .htaccess 文件放在 /backup 文件夹中就可以了?

Order deny,allow
Deny from all

有任何想法吗?

4

1 回答 1

13

这将防止该目录被索引:

User-agent: *
Disallow: /backup/

此外,您的 robots.txt 文件必须放在域的根目录中,因此在这种情况下,该文件将放置在您可以通过访问http://example.com/robots.txt在浏览器中访问它的位置

顺便说一句,您可能需要考虑为您的开发站点设置一个子域,例如http://dev.example.com。这样做可以让您将开发内容与生产环境完全分开,并确保您的环境更紧密地匹配。

例如,任何指向 JavaScript 文件、CSS、图像或其他资源的绝对路径在从开发到生产的过程中都可能不一样,这可能会导致一些问题。

有关如何配置此文件的更多信息,请参阅robotstxt.org站点。祝你好运!

最后也是最后一点,Google 网站管理员工具有一个部分,您可以在其中查看 robots.txt 文件阻止的内容

要查看 Google 已阻止抓取哪些 URL,请访问 Webmaster Tools 的 Health 部分的 Blocked URLs 页面。

我强烈建议您使用此工具,因为配置不正确的 robots.txt 文件可能会对您网站的性能产生重大影响。

于 2012-05-26T10:43:20.950 回答