0

我有一个用于测试目的的子域。我已将 robots.txt 设置为禁止此文件夹。

由于某种原因,一些结果仍然显示。我想这可能是因为我最初没有设置 robots.txt 并且谷歌还没有删除其中的一些。

现在我担心这个文件夹中各个 joomla 站点中的 robots.txt 文件会导致 Google 继续为它们编制索引。理想情况下,我想阻止这种情况发生,因为我不想记住在 robots.txt 上线时将其转回跟随(以防万一)。

有没有办法在此文件夹上方的文件夹中使用 robots.txt 显式覆盖这些?

4

1 回答 1

1

就爬虫而言,robots.txt 仅存在于站点的根目录中。没有 robots.txt 文件层次结构的概念。

因此,如果您有http://example.comhttp://foo.example.com,那么您将需要两个不同的 robots.txt 文件:一个用于 example.com,一个用于 foo.example.com。当 Googlebot 读取 foo.example.com 的 robots.txt 文件时,它不会考虑 example.com 的 robots.txt。

当 Google bot 抓取 example.com 时,它在任何情况下都不会解释 foo.example.com 的 robots.txt 文件。并且当它抓取 foo.example.com 时,它不会解释 example.com 的 robots.txt。

这是否回答你的问题?

更多信息

当 Googlebot 抓取 foo.com 时,它会读取 foo.com/robots.txt 并使用该文件中的规则。它不会阅读和遵守 foo.com/portfolio/robots.txt 或 foo.com/portfolio/mydummysite.com/robots.txt 中的规则。请参阅我原始答案的前两句话。

我不完全了解您要阻止的内容,可能是因为我不完全了解您的站点层次结构。但是您无法通过更改 foo.com/robots.txt 或 foo.com/portfolio/robots.txt 中的 robots.txt 文件来更改爬虫在 mydummysite.com 上的行为。

于 2013-10-24T21:14:52.063 回答