0

相关问题:Robots.txt 中的多个用户代理

我正在阅读某个网站上的 robots.txt 文件,这对我来说似乎是矛盾的(但我不确定)。

User-agent: *
Disallow: /blah
Disallow: /bleh
...
... 
...several more Disallows

User-agent: *
Allow: /

我知道您可以通过指定多个用户代理来排除某些机器人,但是这个文件似乎是说所有机器人都不允许访问一堆文件,但也允许访问所有文件?还是我读错了。

4

1 回答 1

1

此 robots.txt 无效,因为必须只有一条带有User-agent: *. 如果我们修复它,我们有:

User-agent: *
Disallow: /blah
Disallow: /bleh
Allow: /

Allow不是原始 robots.txt 规范的一部分,因此并非所有解析器都会理解它(那些必须忽略该行)。

对于理解 的解析器Allow,此行仅表示:允许一切(其他)。但无论如何这是默认设置,所以这个 robots.txt 具有相同的含义:

User-agent: *
Disallow: /blah
Disallow: /bleh

blah含义:除了路径以或开头的那些 URL 之外,所有内容都是允许的bleh

如果该行Allow出现在行之前Disallow,一些解析器可能会忽略这些Disallow行。但是,正如Allow未指定的那样,这可能因解析器而异。

于 2013-09-20T13:09:17.913 回答