python - Scrapy：限制请求或请求字节数

Question

我正在使用一个scrapyCrawlSpider并定义了一个扭曲的反应器来控制我的爬虫。在测试期间，我爬取了一个收集超过几 GB 数据的新闻站点。大多数情况下，我对最新的故事感兴趣，所以我正在寻找一种方法来限制请求的页面数、字节数或秒数。

有没有一种通用的方法来定义一个限制

请求字节
request_counts或
运行时间以秒为单位？

score 22 · Accepted Answer

里面有scrapy课scrapy.extensions.closespider.CloseSpider。您可以定义变量CLOSESPIDER_TIMEOUT、CLOSESPIDER_ITEMCOUNT和。CLOSESPIDER_PAGECOUNTCLOSESPIDER_ERRORCOUNT

当满足条件时，蜘蛛会自动关闭：http: //doc.scrapy.org/en/latest/topics/extensions.html#module-scrapy.extensions.closespider

python - Scrapy：限制请求或请求字节数

1 回答 1

Related

Reference