就爬虫而言,robots.txt 仅存在于站点的根目录中。没有 robots.txt 文件层次结构的概念。
因此,如果您有http://example.com和http://foo.example.com,那么您将需要两个不同的 robots.txt 文件:一个用于 example.com,一个用于 foo.example.com。当 Googlebot 读取 foo.example.com 的 robots.txt 文件时,它不会考虑 example.com 的 robots.txt。
当 Google bot 抓取 example.com 时,它在任何情况下都不会解释 foo.example.com 的 robots.txt 文件。并且当它抓取 foo.example.com 时,它不会解释 example.com 的 robots.txt。
这是否回答你的问题?
更多信息
当 Googlebot 抓取 foo.com 时,它会读取 foo.com/robots.txt 并使用该文件中的规则。它不会阅读和遵守 foo.com/portfolio/robots.txt 或 foo.com/portfolio/mydummysite.com/robots.txt 中的规则。请参阅我原始答案的前两句话。
我不完全了解您要阻止的内容,可能是因为我不完全了解您的站点层次结构。但是您无法通过更改 foo.com/robots.txt 或 foo.com/portfolio/robots.txt 中的 robots.txt 文件来更改爬虫在 mydummysite.com 上的行为。