-2

我想使用脚本来获取该网站中的所有这些图片。我用 chrome 开发者工具查看了他主页的源代码。这些图片网址就像

src="http://img.hb.aicdn.com/3e32a8b101e515b9e7dbe8f5a2e47afff5ec6bcf4e4a-OTvsuu_fw192

但是,如果我使用wgetcurl下载此页面,甚至在浏览器中“保存铺路”,则该 html 文件中没有这样的链接。我不知道如何获得所有这些链接。另一个问题是如果我们向下滚动页面,图像会连续出现。我不知道是否有任何方法可以获取整个页面。

4

1 回答 1

1

您能否将 URL 发布到您要下载所有图片的最后一页?

或者对你来说是指来自http://huaban.com/登陆页面的所有图片

使用以下代码,您可以将图像 url “保存”到文件系统上的文件中:

image_path = 'http://img.hb.aicdn.com/3e32a8b101e515b9e7dbe8f5a2e47afff5ec6bcf4e4a-OTvsuu_fw192'
with open(r'<path_to_file>.jpg', 'wb') as image:
    image.write(urllib2.urlopen(image_path).read())

但是要检索图像“源”路径......我担心它们会由 javascript 组件生成,所以你没有太多选择。

也许一种解决方案是使用无头浏览器或 JavaScript 引擎桥(如Python-Spidermonkey)来获取最终的(js 构建的)html 内容。

-科林-

于 2012-09-03T14:12:34.853 回答