寻找可以让我抓取 HTML 模型并保持页面完整性的Linux application
(或 Firefox 扩展) 。
Firefox 做得几乎完美,但没有抓取 CSS 中引用的图像。
Firefox 的 Scrapbook 扩展可以获取所有内容,但会扁平化目录结构。
如果所有文件夹都成为页面的子级,我不会非常介意index
。
寻找可以让我抓取 HTML 模型并保持页面完整性的Linux application
(或 Firefox 扩展) 。
Firefox 做得几乎完美,但没有抓取 CSS 中引用的图像。
Firefox 的 Scrapbook 扩展可以获取所有内容,但会扁平化目录结构。
如果所有文件夹都成为页面的子级,我不会非常介意index
。
wget --mirror –w 2 –p --HTML-extension –-convert-links http://www.yourdomain.com
你试过wget吗?
wget -r
做你想做的事,如果没有,有很多标志来配置它。见man wget
。
另一个选项是curl
,它更强大。见http://curl.haxx.se/。
Teleport Pro非常适合这种事情。您可以将它指向完整的网站,它会下载一份本地维护目录结构的副本,并根据需要将绝对链接替换为相对链接。您还可以指定是否要从原始站点链接到的其他第三方网站的内容。