robots.txt - 如何覆盖子文件夹中的机器人

Question

我有一个用于测试目的的子域。我已将 robots.txt 设置为禁止此文件夹。

由于某种原因，一些结果仍然显示。我想这可能是因为我最初没有设置 robots.txt 并且谷歌还没有删除其中的一些。

现在我担心这个文件夹中各个 joomla 站点中的 robots.txt 文件会导致 Google 继续为它们编制索引。理想情况下，我想阻止这种情况发生，因为我不想记住在 robots.txt 上线时将其转回跟随（以防万一）。

有没有办法在此文件夹上方的文件夹中使用 robots.txt 显式覆盖这些？

score 1 · Accepted Answer

就爬虫而言，robots.txt 仅存在于站点的根目录中。没有 robots.txt 文件层次结构的概念。

因此，如果您有http://example.com和http://foo.example.com，那么您将需要两个不同的 robots.txt 文件：一个用于 example.com，一个用于 foo.example.com。当 Googlebot 读取 foo.example.com 的 robots.txt 文件时，它不会考虑 example.com 的 robots.txt。

当 Google bot 抓取 example.com 时，它在任何情况下都不会解释 foo.example.com 的 robots.txt 文件。并且当它抓取 foo.example.com 时，它不会解释 example.com 的 robots.txt。

这是否回答你的问题？

robots.txt - 如何覆盖子文件夹中的机器人

1 回答 1

更多信息

robots.txt - 如何覆盖子文件夹中的机器人

1 回答 1

更多信息

Related

Reference