1

那我应该怎么做

用户代理: *

不允许: /

就这么简单吗?还是不会抓取根目录中的文件?

基本上这就是我所追求的 - 抓取根目录中的所有文件/页面,但根本没有任何文件夹,或者我必须明确指定每个文件夹..即

禁止:/管理员

禁止:/this

.. ETC

谢谢

纳特

4

1 回答 1

2

您的示例将阻止根目录中的所有文件。

没有明确指定每个文件夹的“标准”方法可以轻松完成您想要的操作。

然而,一些爬虫确实支持允许您进行模式匹配的扩展。您可以禁止所有不支持模式匹配的机器人,但允许支持的机器人。

例如

# disallow all robots
User-agent: *
Disallow: /

# let google read html and files
User-agent: Googlebot
Allow: /*.html
Allow: /*.pdf
Disallow: /
于 2010-02-09T11:41:08.783 回答