相关问题:Robots.txt 中的多个用户代理
我正在阅读某个网站上的 robots.txt 文件,这对我来说似乎是矛盾的(但我不确定)。
User-agent: *
Disallow: /blah
Disallow: /bleh
...
...
...several more Disallows
User-agent: *
Allow: /
我知道您可以通过指定多个用户代理来排除某些机器人,但是这个文件似乎是说所有机器人都不允许访问一堆文件,但也允许访问所有文件?还是我读错了。
相关问题:Robots.txt 中的多个用户代理
我正在阅读某个网站上的 robots.txt 文件,这对我来说似乎是矛盾的(但我不确定)。
User-agent: *
Disallow: /blah
Disallow: /bleh
...
...
...several more Disallows
User-agent: *
Allow: /
我知道您可以通过指定多个用户代理来排除某些机器人,但是这个文件似乎是说所有机器人都不允许访问一堆文件,但也允许访问所有文件?还是我读错了。
此 robots.txt 无效,因为必须只有一条带有User-agent: *. 如果我们修复它,我们有:
User-agent: *
Disallow: /blah
Disallow: /bleh
Allow: /
Allow不是原始 robots.txt 规范的一部分,因此并非所有解析器都会理解它(那些必须忽略该行)。
对于理解 的解析器Allow,此行仅表示:允许一切(其他)。但无论如何这是默认设置,所以这个 robots.txt 具有相同的含义:
User-agent: *
Disallow: /blah
Disallow: /bleh
blah含义:除了路径以或开头的那些 URL 之外,所有内容都是允许的bleh。
如果该行Allow出现在行之前Disallow,一些解析器可能会忽略这些Disallow行。但是,正如Allow未指定的那样,这可能因解析器而异。