我正在使用scrapy下载图像但出现超时错误:
Retrying <GET http://www/***.jpg> (failed 1 times): User timeout caused connection failure
但是,我可以立即使用 wget 下载图像。DOWNLOAD_TIMEOUT(scrapy 参数)设置为默认 180 秒,因此这不应该是错误的根本原因。我尝试过将scrapy与代理和非代理一起使用,两者都给了我上述错误。
如果您正在抓取多个图像(尤其是来自多个域的图像),则下载将同时进行,与从命令行下载单个图像相比,每次下载可能需要更长的时间。尝试减少CONCURRENT_REQUESTS设置并增加DOWNLOAD_TIMEOUT。
检查scrapy fetch URL
您是否可以检索图像以排除 Scrapy 问题。
最后,检查请求标头(User-agent、cookie、referrer 等)的差异,这里的一些差异可能会导致服务器响应的差异。如果你能找到一个与众不同的标题,那么在 Scrapy 中很容易更改。