1

众所周知,robots.txt 可以帮助我们避免网络爬虫/机器人对某些网页/部分进行索引。但是使用这种方法也有一定的缺点: 1. 网络爬虫可能不会监听 robots.txt 文件;2.您将要保护的文件夹暴露给所有人;

还有另一种方法可以阻止要保护的文件夹免受爬虫的侵害?请记住,可能希望从浏览器(如 /admin)访问这些文件夹。

4

1 回答 1

2

检查User-Agent请求的标头,如果标头包含机器人的名称,则发出 403。这将阻止所有诚实的机器人,但不会阻止不诚实的机器人。但话又说回来,如果机器人真的诚实,它会服从robots.txt的。

于 2012-05-02T06:47:15.457 回答