python - scrapy 用户超时导致连接失败

Question

我正在使用scrapy下载图像但出现超时错误：

Retrying <GET http://www/***.jpg> (failed 1 times): User timeout caused connection failure

但是，我可以立即使用 wget 下载图像。DOWNLOAD_TIMEOUT（scrapy 参数）设置为默认 180 秒，因此这不应该是错误的根本原因。我尝试过将scrapy与代理和非代理一起使用，两者都给了我上述错误。

score 10 · Accepted Answer

如果您正在抓取多个图像（尤其是来自多个域的图像），则下载将同时进行，与从命令行下载单个图像相比，每次下载可能需要更长的时间。尝试减少CONCURRENT_REQUESTS设置并增加DOWNLOAD_TIMEOUT。

检查scrapy fetch URL您是否可以检索图像以排除 Scrapy 问题。

最后，检查请求标头（User-agent、cookie、referrer 等）的差异，这里的一些差异可能会导致服务器响应的差异。如果你能找到一个与众不同的标题，那么在 Scrapy 中很容易更改。

1 回答 1