我最近在我的服务器上遇到了很多 CPU 峰值,不知何故我相信这不是真正的流量,或者它的某些部分不是真实的。所以我现在只想允许谷歌机器人、MSN 和雅虎。如果以下 robots.txt 文件符合我的要求,请指导我。
用户代理:Googlebot 用户代理:Slurp 用户代理:msnbot 用户代理:Mediapartners-Google* 用户代理:Googlebot-Image 用户代理:Yahoo-MMCrawler 不允许: 用户代理: * 不允许: /
谢谢。
我最近在我的服务器上遇到了很多 CPU 峰值,不知何故我相信这不是真正的流量,或者它的某些部分不是真实的。所以我现在只想允许谷歌机器人、MSN 和雅虎。如果以下 robots.txt 文件符合我的要求,请指导我。
用户代理:Googlebot 用户代理:Slurp 用户代理:msnbot 用户代理:Mediapartners-Google* 用户代理:Googlebot-Image 用户代理:Yahoo-MMCrawler 不允许: 用户代理: * 不允许: /
谢谢。
您的 robots.txt 似乎是有效的。
User-agent
行。Disallow:
允许抓取所有内容。User-agent: *
仅适用于与上一条记录不匹配的机器人。Disallow: /
禁止爬行任何东西。但请注意:只有优秀的机器人才会遵循 robots.txt 中的规则——而且优秀的机器人很可能不会过度使用常见的爬行频率。因此,要么你需要提高你的表现,要么应该归咎于不太好的机器人。
首先Disallow:
应该是:
Allow: /
实际上,如果您想允许所有这些用户代理为您的站点编制索引。