search-engine - 是否可以通过 robots.txt 控制爬取速度？

Question

我们可以在 robots.txt 中告诉机器人抓取或不抓取我们的网站。另一方面，我们可以控制 Google Webmasters 中的抓取速度（Google bot 抓取网站的速度）。我想知道是否可以通过 robots.txt 限制爬虫活动

我的意思是接受机器人来抓取页面，但会通过时间、页面或大小来限制它们的存在！

score 17 · Accepted Answer

您可以在 robots.txt 中使用一个指令，它是“Crawl-delay”。

Crawl-delay: 5

这意味着机器人每 5 秒应抓取不超过一页。但据我所知，robots.txt 并未正式支持该指令。

还有一些机器人根本不接受 count robots.txt 文件。因此，即使您禁止访问某些页面，它们仍然可能被一些机器人抓取，当然不是像谷歌这样最大的机器人。

例如，百度可以忽略 robots.txt，但这并不确定。

我没有这个信息的官方来源，所以你可以谷歌一下。

score 3 · Accepted Answer

我知道这是一个非常古老的问题，但我想根据谷歌文档补充一下，这里是官方答案：

您通常可以在您的 Google 网站管理员工具帐户中调整抓取速度设置。

每：https ://developers.google.com/webmasters/control-crawl-index/docs/faq#h04

在网站管理员工具中，您可以按照以下步骤操作：

新的抓取速度将在 90 天内有效。

score 2 · Accepted Answer

不是我发现的。Robots.txt 是放置您希望机器人包含或排除的目录或文件的地方。如果有办法，它还不是标准的。请记住，创建机器人的人选择是否尊重 robots.txt，并非所有机器人（“坏机器人”）都尊重此文件。

目前，如果有降低抓取速度、站点停留时间等的设置，它将是逐个机器人的基础，而不是标准化为 robots.txt 值。

score 0 · Accepted Answer

不，该robots.txt文件只能指定您不想被索引的页面以及这些规则也适用的用户代理。您不能对文件执行任何其他操作。

一些网站使用AllowandSitemap指令，但根据官方网站，它们似乎不是有效的指令，尽管一些爬虫可能会尊重它们。

4 回答 4