5

寻找可以让我抓取 HTML 模型并保持页面完整性的Linux application (或 Firefox 扩展) 。

Firefox 做得几乎完美,但没有抓取 CSS 中引用的图像。

Firefox 的 Scrapbook 扩展可以获取所有内容,但会扁平化目录结构。

如果所有文件夹都成为页面的子级,我不会非常介意index

4

4 回答 4

6

请参阅使用 wget 进行网站镜像

wget --mirror –w 2 –p --HTML-extension –-convert-links http://www.yourdomain.com
于 2008-09-17T03:26:32.077 回答
3

你试过wget吗?

于 2008-09-17T03:23:50.600 回答
1

wget -r做你想做的事,如果没有,有很多标志来配置它。见man wget

另一个选项是curl,它更强大。见http://curl.haxx.se/

于 2008-09-17T03:28:00.387 回答
0

Teleport Pro非常适合这种事情。您可以将它指向完整的网站,它会下载一份本地维护目录结构的副本,并根据需要将绝对链接替换为相对链接。您还可以指定是否要从原始站点链接到的其他第三方网站的内容。

于 2008-09-17T03:26:22.107 回答