1

这是我添加到 image_urls 字段的图像示例。 http://static.zara.net/photos//2014/I/0/2/p/5875/309/800/2/w/1920/5875309800_1_1_1.jpg 但是我收到了这个警告并且图片没有上传。

[zara_com] 警告:文件(代码:404):从 http://static.zara.net/photos//2014/I/0/2/p/5875/309/800/2/w/1920 下载图像时出错/5875309800_1_1_1.jpg> 参考

虽然像这样的图像: http ://static.zara.net/photos//2014/V/1/3/p/1280/303/105/2/w/1920/1280303105_2_1_1.jpg 正常上传。

可能是什么问题?我应该检查什么?

4

1 回答 1

3

据我所见,他们似乎正在过滤使用默认的scrapy用户代理发出的请求:

'User-Agent': 'Scrapy/0.24.2 (+http://scrapy.org)'

当我更改项目的 settings.py 中的 USER_AGENT 设置时,它开始对所有请求返回 200。奇怪的是,在此之前它甚至在图像上返回404,你说的是正常返回。

PS 如果他们不允许,从网站上抓取内容并不是很好,但也不是他们在 robots.txt 中不允许这样做。您仍然应该启用 RobotsTxtMiddleware 和 AutoThrottle 扩展以确保您玩得公平。

于 2014-08-14T11:41:48.347 回答