python - 如何下载本站所有图片：huaban.com

Question

我想使用脚本来获取该网站中的所有这些图片。我用 chrome 开发者工具查看了他主页的源代码。这些图片网址就像

src="http://img.hb.aicdn.com/3e32a8b101e515b9e7dbe8f5a2e47afff5ec6bcf4e4a-OTvsuu_fw192

但是，如果我使用wget或curl下载此页面，甚至在浏览器中“保存铺路”，则该 html 文件中没有这样的链接。我不知道如何获得所有这些链接。另一个问题是如果我们向下滚动页面，图像会连续出现。我不知道是否有任何方法可以获取整个页面。

score 1 · Accepted Answer

您能否将 URL 发布到您要下载所有图片的最后一页？

或者对你来说是指来自http://huaban.com/登陆页面的所有图片？

使用以下代码，您可以将图像 url “保存”到文件系统上的文件中：

image_path = 'http://img.hb.aicdn.com/3e32a8b101e515b9e7dbe8f5a2e47afff5ec6bcf4e4a-OTvsuu_fw192'
with open(r'<path_to_file>.jpg', 'wb') as image:
    image.write(urllib2.urlopen(image_path).read())

但是要检索图像“源”路径......我担心它们会由 javascript 组件生成，所以你没有太多选择。

也许一种解决方案是使用无头浏览器或 JavaScript 引擎桥（如Python-Spidermonkey）来获取最终的（js 构建的）html 内容。

-科林-

python - 如何下载本站所有图片：huaban.com

1 回答 1

Related

Reference