我正在使用一个scrapyCrawlSpider
并定义了一个扭曲的反应器来控制我的爬虫。在测试期间,我爬取了一个收集超过几 GB 数据的新闻站点。大多数情况下,我对最新的故事感兴趣,所以我正在寻找一种方法来限制请求的页面数、字节数或秒数。
有没有一种通用的方法来定义一个限制
- 请求字节
- request_counts或
- 运行时间以秒为单位?
里面有scrapy
课scrapy.extensions.closespider.CloseSpider
。您可以定义变量CLOSESPIDER_TIMEOUT
、CLOSESPIDER_ITEMCOUNT
和。CLOSESPIDER_PAGECOUNT
CLOSESPIDER_ERRORCOUNT
当满足条件时,蜘蛛会自动关闭:http: //doc.scrapy.org/en/latest/topics/extensions.html#module-scrapy.extensions.closespider