python - 用 Python 下载网页及其所有资源文件

Question

我希望能够使用 Python 下载页面及其所有相关资源（图像、样式表、脚本文件等）。我（有点）熟悉 urllib2 并且知道如何下载单个 url，但在我开始在 BeautifulSoup + urllib2 上进行黑客攻击之前，我想确保没有与“wget --page-requisites http ”等效的 Python ://www.google.com ”。

具体来说，我有兴趣收集有关下载整个网页（包括所有资源）所需时间的统计信息。

谢谢马克

score 3 · Accepted Answer

3

吸毒者？见http://effbot.org/zone/websucker.htm

于 2009-05-09T21:31:08.277 回答

score 2 · Accepted Answer

websucker.py 不导入 CSS 链接。HTTrack.com 不是 python，它是 C/C++，但它是一个很好的、维护的、用于下载网站以供离线浏览的实用程序。

http://www.mail-archive.com/python-bugs-list@python.org/msg13523.html [issue1124] Webchecker 不解析 css “@import url”

Guido> 这基本上是不受支持和无人维护的示例代码。随意提交补丁！

python - 用 Python 下载网页及其所有资源文件

2 回答 2

Related

Reference