7

我正在使用scrapy下载图像但出现超时错误:

Retrying <GET http://www/***.jpg> (failed 1 times): User timeout caused connection failure

但是,我可以立即使用 wget 下载图像。DOWNLOAD_TIMEOUT(scrapy 参数)设置为默认 180 秒,因此这不应该是错误的根本原因。我尝试过将scrapy与代理和非代理一起使用,两者都给了我上述错误。

4

1 回答 1

10

如果您正在抓取多个图像(尤其是来自多个域的图像),则下载将同时进行,与从命令行下载单个图像相比,每次下载可能需要更长的时间。尝试减少CONCURRENT_REQUESTS设置并增加DOWNLOAD_TIMEOUT

检查scrapy fetch URL您是否可以检索图像以排除 Scrapy 问题。

最后,检查请求标头(User-agent、cookie、referrer 等)的差异,这里的一些差异可能会导致服务器响应的差异。如果你能找到一个与众不同的标题,那么在 Scrapy 中很容易更改。

于 2013-09-09T03:34:54.277 回答