0

我假设您已经看过电影“社交网络”来回答这个问题。

我想知道是否有可能像扎克伯格那样在他在 Facemash.com 上工作时从网站下载图像;如果可能的话,你会怎么做这样的事情?

如果您有知识,请随意对它进行技术处理;这是我一直很感兴趣的事情,我很想知道。

谢谢!

(非常多;从网站目录下载图像和文件,但不知道所述文件的确切名称)

4

1 回答 1

2

从 Web 抓取数据的一般技术称为“抓取”。要下载图像,您将获取页面的来源,在其中搜索任何标签,并对属性<img>指向的地址进行额外请求。src然后,您将在页面中构建一个附加链接列表,以遵循并重复该过程。

例如在这个页面上只有两个标签。其中之一是您的头像,它看起来像这样:

<img src="http://i.stack.imgur.com/mWxgi.png?s=32&amp;g=1" alt="">

在 Linux shell 中,我可以通过以下方式使用 wget 获取图像:

wget "http://i.stack.imgur.com/mWxgi.png?s=32&amp;g=1"

您获取页面源的方式各不相同。在 Python 中,我可能会使用请求漂亮的汤库来获取和处理页面源。如果页面主要是通过 Javascript 生成的,我可能必须使用Selenium Webdriver来实际驱动真正的浏览器会话。

于 2013-10-20T10:26:34.043 回答