search-engine - 如何在没有 robots.txt 的情况下阻止机器人

翻译自：https://stackoverflow.com/questions/10408943 2012-05-02T06:45:08.643

216 次

1

众所周知，robots.txt 可以帮助我们避免网络爬虫/机器人对某些网页/部分进行索引。但是使用这种方法也有一定的缺点： 1. 网络爬虫可能不会监听 robots.txt 文件；2.您将要保护的文件夹暴露给所有人；

还有另一种方法可以阻止要保护的文件夹免受爬虫的侵害？请记住，可能希望从浏览器（如 /admin）访问这些文件夹。

1 回答 1

2

检查User-Agent请求的标头，如果标头包含机器人的名称，则发出 403。这将阻止所有诚实的机器人，但不会阻止不诚实的机器人。但话又说回来，如果机器人真的诚实，它会服从robots.txt的。

于 2012-05-02T06:47:15.457 回答