我假设您已经看过电影“社交网络”来回答这个问题。
我想知道是否有可能像扎克伯格那样在他在 Facemash.com 上工作时从网站下载图像;如果可能的话,你会怎么做这样的事情?
如果您有知识,请随意对它进行技术处理;这是我一直很感兴趣的事情,我很想知道。
谢谢!
(非常多;从网站目录下载图像和文件,但不知道所述文件的确切名称)
我假设您已经看过电影“社交网络”来回答这个问题。
我想知道是否有可能像扎克伯格那样在他在 Facemash.com 上工作时从网站下载图像;如果可能的话,你会怎么做这样的事情?
如果您有知识,请随意对它进行技术处理;这是我一直很感兴趣的事情,我很想知道。
谢谢!
(非常多;从网站目录下载图像和文件,但不知道所述文件的确切名称)
从 Web 抓取数据的一般技术称为“抓取”。要下载图像,您将获取页面的来源,在其中搜索任何标签,并对属性<img>
指向的地址进行额外请求。src
然后,您将在页面中构建一个附加链接列表,以遵循并重复该过程。
例如在这个页面上只有两个标签。其中之一是您的头像,它看起来像这样:
<img src="http://i.stack.imgur.com/mWxgi.png?s=32&g=1" alt="">
在 Linux shell 中,我可以通过以下方式使用 wget 获取图像:
wget "http://i.stack.imgur.com/mWxgi.png?s=32&g=1"
您获取页面源的方式各不相同。在 Python 中,我可能会使用请求和漂亮的汤库来获取和处理页面源。如果页面主要是通过 Javascript 生成的,我可能必须使用Selenium Webdriver来实际驱动真正的浏览器会话。