python - Scrapy 爬行速度慢（60 页/分钟）

Question

我在使用 scrapy 时遇到缓慢的爬行速度（大约 1 页/秒）。我正在从 aws 服务器抓取一个主要网站，所以我认为这不是网络问题。Cpu 利用率远未接近 100，如果我启动多个scrapy 进程，抓取速度会快得多。

Scrapy 好像爬了一堆页面，然后挂了几秒，然后重复。

我试过玩：CONCURRENT_REQUESTS = CONCURRENT_REQUESTS_PER_DOMAIN = 500

但这似乎并没有真正让指针超过 20 点。

score 2 · Accepted Answer

您确定允许高速抓取目标站点吗？许多站点实施了下载阈值，并且“一段时间后”开始响应缓慢。

1 回答 1