1

有人可以告诉我如何编写 robots.txt 文件。我需要禁止目录的所有页面,但我需要允许访问所有相关子目录。您必须知道我不知道页面和子目录的名称......它们是自动创建的。

例如:

禁止:/dir1/dir2/all-pages.html

允许:/dir1/dir2/all-subdirectories/

(对不起我的英语不好)

4

1 回答 1

1

这应该这样做:

Allow: /dir1/dir2/*/
Disallow: /dir1/dir2/

这应该适用于谷歌和必应。它是否适用于其他爬虫是一个悬而未决的问题,因为没有关于如何协同工作Allow的通用标准。Disallow但是把它放在第Allow一个会给你最好的机会,因为许多爬虫使用“第一个匹配规则”。所以他们会看到Allow并继续。

于 2013-09-25T14:46:01.223 回答