9

我希望能够使用 Python 下载页面及其所有相关资源(图像、样式表、脚本文件等)。我(有点)熟悉 urllib2 并且知道如何下载单个 url,但在我开始在 BeautifulSoup + urllib2 上进行黑客攻击之前,我想确保没有与“wget --page-requisites http ”等效的 Python ://www.google.com ”。

具体来说,我有兴趣收集有关下载整个网页(包括所有资源)所需时间的统计信息。

谢谢马克

4

2 回答 2

3

吸毒者?见http://effbot.org/zone/websucker.htm

于 2009-05-09T21:31:08.277 回答
2

websucker.py 不导入 CSS 链接。HTTrack.com 不是 python,它是 C/C++,但它是一个很好的、维护的、用于下载网站以供离线浏览的实用程序。

http://www.mail-archive.com/python-bugs-list@python.org/msg13523.html [issue1124] Webchecker 不解析 css “@import url”

Guido> 这基本上是不受支持和无人维护的示例代码。随意提交补丁!

于 2010-05-14T21:22:34.010 回答