6

由于机器人淹没了我的网站,我的 CPU 使用率突然超过 400% 后,我创建了一个 robots.txt,并将该文件放在我的根目录中,例如“www.example.com/”:

User-agent: *
Disallow: /

现在谷歌尊重这个文件,我的谷歌日志文件中不再出现。但是 BingBot 和百度蜘蛛仍然出现在我的日志中(而且很多)。

由于 CPU 使用率和带宽大幅增加,而且我的托管服务提供商即将暂停我的帐户,我首先删除了我的所有页面(以防有讨厌的脚本),上传干净的页面,通过 IP 地址阻止所有机器人.htaccess & 然后创建了 robots.txt 文件。

我到处搜索以确认我做了正确的步骤(尚未尝试 .htaccess 中的“重写”选项)。

任何人都可以确认我所做的应该完成这项工作吗?(自从我开始这个项目以来,我的 CPU 使用率在 6 天内下降到 120%,但至少阻止 IP 地址应该会将 CPU 使用率降低到我通常的 5-10%)。

4

1 回答 1

3

如果这些是来自 Bingbot 和百度蜘蛛的合法蜘蛛,那么它们都应该按照给定的方式尊重您的 robots.txt 文件。但是,如果这些文件之前已被索引,他们可能需要一些时间才能将其拾取并开始对其采取行动——这可能就是这里的情况。

不适用于本例,但需要注意的是,Baiduspider 对 robots.txt 标准的解读在某些方面与其他主流 bot(即 Googlebot)略有不同。例如,虽然标准将Disallow:记录上的 URL 路径简单地定义为前缀,但百度蜘蛛只会匹配整个目录/路径名称。http://example.com/private/在给出指令时, Googlebot 将匹配 URL Disallow: /priv,Baiduspider 不会。

参考:
http ://www.baidu.com/search/robots_english.html

于 2014-04-01T11:16:16.493 回答