我正在抓取一个网站并解析一些内容+图像,但是即使对于具有 100 页左右的简单网站,也需要花费数小时才能完成这项工作。我正在使用以下设置。任何帮助将不胜感激。我已经看到了这个问题 - Scrapy 的 Scrapyd 调度蜘蛛太慢,但无法收集太多见解。
EXTENSIONS = {'scrapy.contrib.logstats.LogStats': 1}
LOGSTATS_INTERVAL = 60.0
RETRY_TIMES = 4
CONCURRENT_REQUESTS = 32
CONCURRENT_REQUESTS_PER_DOMAIN = 12
CONCURRENT_ITEMS = 200
DOWNLOAD_DELAY = 0.75