11

我正在使用一个scrapyCrawlSpider并定义了一个扭曲的反应器来控制我的爬虫。在测试期间,我爬取了一个收集超过几 GB 数据的新闻站点。大多数情况下,我对最新的故事感兴趣,所以我正在寻找一种方法来限制请求的页面数、字节数或秒数。

有没有一种通用的方法来定义一个限制

  • 请求字节
  • request_counts
  • 运行时间以秒为单位?
4

1 回答 1

22

里面有scrapyscrapy.extensions.closespider.CloseSpider。您可以定义变量CLOSESPIDER_TIMEOUTCLOSESPIDER_ITEMCOUNT和。CLOSESPIDER_PAGECOUNTCLOSESPIDER_ERRORCOUNT

当满足条件时,蜘蛛会自动关闭:http: //doc.scrapy.org/en/latest/topics/extensions.html#module-scrapy.extensions.closespider

于 2013-10-03T14:34:49.500 回答