11

我在中间的专用服务器上运行一个内容很多但流量很少的网站。

有时,Googlebot 会踩到我们,导致 Apache 内存耗尽,并导致服务器崩溃。

我怎样才能避免这种情况?

4

6 回答 6

9

您可以使用 google 的网站管理员工具设置您的网站的抓取方式。具体看一下这个页面:Changing Google's crawl rate

您还可以使用 robots.txt 文件限制 google bot 搜索的页面。有一个可用的设置crawl-delay,但谷歌似乎不接受它。

于 2009-08-25T14:00:20.717 回答
9
  • 在谷歌网站管理员工具上注册,验证您的网站并关闭谷歌机器人
  • 提交站点地图
  • 阅读谷歌指南:(if-Modified-Since HTTP 标头)
  • 使用robots.txt限制对 bot 对网站某些部分的访问
  • 制作一个脚本,每$[时间段]更改robot.txt,以确保机器人永远无法同时抓取太多页面,同时确保它可以抓取所有内容
于 2009-08-25T14:19:09.943 回答
1

请注意,您可以通过 Google 网站管理员工具(在网站设置下)设置抓取速度,但它们仅支持六个月的设置!因此,您必须每六个月登录一次才能重新设置。

此设置已在 Google 中更改。该设置现在仅保存 90 天(3 个月,而不是 6 个月)。

于 2014-10-14T20:01:00.813 回答
1

使用 Google 网站管理员工具注册您的网站,该工具可让您设置 googlebot 应尝试为您的网站编制索引的频率和每秒请求数。Google 网站管理员工具还可以帮助您创建 robots.txt 文件以减少您网站的负载

于 2009-08-25T13:59:40.327 回答
0

您可以在谷歌的站长工具中配置抓取速度。

于 2009-08-25T13:58:51.500 回答
0

限制抓取速度:

  • 在 Search Console 首页上,点击所需的网站。

  • 单击齿轮图标设置,然后单击站点设置。

  • 在“抓取速度”部分中,选择您想要的选项,然后根据需要限制抓取速度。

新的抓取速度将在 90 天内有效。

于 2019-01-29T04:34:55.527 回答