1

我为某个网页写了一个爬虫。该网页有一个 robots.txt,如下所示:

User-Agent: * 
Crawl-delay: 30

所以它只允许每 30 秒抓取一次网站(对吗?)。但是子页面呢?例如,我可以在不延迟 30 秒的情况下抓取以下网站,因为它们是不同的子页面:

www.mysite.com
www.mysite.com/category_1 
www.mysite.com/category_2 

我需要在这些请求之间间隔 30 秒吗?

谢谢你,托马斯。

4

1 回答 1

2

抓取延迟告诉机器人在对同一服务器的连续请求之间等待的秒数。

于 2013-11-07T11:24:41.593 回答