我们可以在 robots.txt 中告诉机器人抓取或不抓取我们的网站。另一方面,我们可以控制 Google Webmasters 中的抓取速度(Google bot 抓取网站的速度)。我想知道是否可以通过 robots.txt 限制爬虫活动
我的意思是接受机器人来抓取页面,但会通过时间、页面或大小来限制它们的存在!
我们可以在 robots.txt 中告诉机器人抓取或不抓取我们的网站。另一方面,我们可以控制 Google Webmasters 中的抓取速度(Google bot 抓取网站的速度)。我想知道是否可以通过 robots.txt 限制爬虫活动
我的意思是接受机器人来抓取页面,但会通过时间、页面或大小来限制它们的存在!
您可以在 robots.txt 中使用一个指令,它是“Crawl-delay”。
Crawl-delay: 5
这意味着机器人每 5 秒应抓取不超过一页。但据我所知,robots.txt 并未正式支持该指令。
还有一些机器人根本不接受 count robots.txt 文件。因此,即使您禁止访问某些页面,它们仍然可能被一些机器人抓取,当然不是像谷歌这样最大的机器人。
例如,百度可以忽略 robots.txt,但这并不确定。
我没有这个信息的官方来源,所以你可以谷歌一下。
我知道这是一个非常古老的问题,但我想根据谷歌文档补充一下,这里是官方答案:
您通常可以在您的 Google 网站管理员工具帐户中调整抓取速度设置。
每:https ://developers.google.com/webmasters/control-crawl-index/docs/faq#h04
在网站管理员工具中,您可以按照以下步骤操作:
在 Search Console 首页上,点击所需的网站。
单击齿轮图标 ,然后单击站点设置。
在“抓取速度”部分中,选择您想要的选项,然后根据需要限制抓取速度。
新的抓取速度将在 90 天内有效。
参考:谷歌支持问题
不是我发现的。Robots.txt 是放置您希望机器人包含或排除的目录或文件的地方。如果有办法,它还不是标准的。请记住,创建机器人的人选择是否尊重 robots.txt,并非所有机器人(“坏机器人”)都尊重此文件。
目前,如果有降低抓取速度、站点停留时间等的设置,它将是逐个机器人的基础,而不是标准化为 robots.txt 值。
不,该robots.txt
文件只能指定您不想被索引的页面以及这些规则也适用的用户代理。您不能对文件执行任何其他操作。
一些网站使用Allow
andSitemap
指令,但根据官方网站,它们似乎不是有效的指令,尽管一些爬虫可能会尊重它们。