web-crawler - robots txt 不允许使用通配符

Question

我无法阻止谷歌抓取一些导致错误的网址。

我想停下来

但允许

我试过 project/*/download/pdf 但它似乎不起作用。有谁知道会怎样？

score 4 · Accepted Answer

你有一个/在行的开头Disallow:吗？

User-agent: googlebot
Disallow: /project/*/download/pdf

score 0 · Accepted Answer

最初的robots.txt 规范没有定义任何通配符，但谷歌（和其他一些人）将它们添加到他们的解析器中。~~但是，我想您无论如何都不需要它们~~（正如吉姆指出的那样，这是错误的）。以下 robots.txt（使用*通配符）应该可以完成这项工作：

User-agent: Googlebot
Disallow: /project/*/download

2 回答 2