我希望能够使用 Python 下载页面及其所有相关资源(图像、样式表、脚本文件等)。我(有点)熟悉 urllib2 并且知道如何下载单个 url,但在我开始在 BeautifulSoup + urllib2 上进行黑客攻击之前,我想确保没有与“wget --page-requisites http ”等效的 Python ://www.google.com ”。
具体来说,我有兴趣收集有关下载整个网页(包括所有资源)所需时间的统计信息。
谢谢马克
我希望能够使用 Python 下载页面及其所有相关资源(图像、样式表、脚本文件等)。我(有点)熟悉 urllib2 并且知道如何下载单个 url,但在我开始在 BeautifulSoup + urllib2 上进行黑客攻击之前,我想确保没有与“wget --page-requisites http ”等效的 Python ://www.google.com ”。
具体来说,我有兴趣收集有关下载整个网页(包括所有资源)所需时间的统计信息。
谢谢马克
websucker.py 不导入 CSS 链接。HTTrack.com 不是 python,它是 C/C++,但它是一个很好的、维护的、用于下载网站以供离线浏览的实用程序。
http://www.mail-archive.com/python-bugs-list@python.org/msg13523.html [issue1124] Webchecker 不解析 css “@import url”
Guido> 这基本上是不受支持和无人维护的示例代码。随意提交补丁!