0

我最近在我的服务器上遇到了很多 CPU 峰值,不知何故我相信这不是真正的流量,或者它的某些部分不是真实的。所以我现在只想允许谷歌机器人、MSN 和雅虎。如果以下 robots.txt 文件符合我的要求,请指导我。

用户代理:Googlebot
用户代理:Slurp
用户代理:msnbot
用户代理:Mediapartners-Google*
用户代理:Googlebot-Image
用户代理:Yahoo-MMCrawler
不允许:

用户代理: *
不允许: /

谢谢。

4

2 回答 2

1

您的 robots.txt 似乎是有效的。

  • 一条记录可以有几User-agent
  • Disallow:允许抓取所有内容。
  • 以 开头的记录User-agent: *仅适用于与上一条记录不匹配的机器人。
  • Disallow: /禁止爬行任何东西。

但请注意:只有优秀的机器人才会遵循 robots.txt 中的规则——而且优秀的机器人很可能不会过度使用常见的爬行频率。因此,要么你需要提高你的表现,要么应该归咎于不太好的机器人。

于 2014-02-17T13:18:14.877 回答
-1

首先Disallow:应该是:

Allow: /

实际上,如果您想允许所有这些用户代理为您的站点编制索引。

于 2012-04-17T20:19:44.363 回答