我运行了一个小型网络服务器,最近它被搜索引擎蜘蛛所困扰。冷却它的正确方法是什么?我应该定期向它发送 5xx 响应吗?我应该使用 robots.txt 设置吗?或者是其他东西?
6 回答
假设蜘蛛非常友好地尊重 robots.txt,您可以通过以下方式限制它访问您的网站:
User-agent: *
Disallow: /
这将影响所有蜘蛛。通过为蜘蛛指定正确的用户代理来缩小范围。
如果爬虫不尊重您的 robots.txt,您可能希望通过在防火墙中阻止其 IP 来限制它访问您的站点。
编辑:您可以在此处阅读有关 robots.txt的更多信息。
Robots.txt 应该是您的第一站。搜索机器人应该记下这些设置并停止访问您拒绝访问的页面。这很容易通过在您网站的根目录中使用以下语法创建一个文件来完成:
User-agent: *
Disallow: /
该语法本质上是说:所有搜索机器人(通配符 *),您不得在 / 下索引任何内容。更多信息请访问robotstxt.org
如果这不起作用,下一步是尽可能禁止 IP 地址。
您还可以构建站点地图并将站点地图注册到有问题的机器人。搜索引擎将使用站点地图来确定要访问哪些页面以及访问频率。如果您的网站是完全动态的,它可能没有太大帮助,但如果您有很多静态页面,这是告诉蜘蛛每天没有任何变化的好方法。
如果它忽略了 robots.txt,那么第二好的做法是通过它的 useragent 字符串来禁止它。仅仅禁止 IP 不会有多大用处,因为如今 99% 的蜘蛛都分布在一堆服务器上。
robots.txt 应该是您的首选。但是,如果机器人行为不端并且您无法控制防火墙,则可以设置 .htaccess 限制以通过 IP 禁止它。
User-agent: *
Disallow: /