20

我正在尝试使用 httrack ( http://www.httrack.com/ ) 来下载单个页面,而不是整个站点。因此,例如,当使用 httrack 下载 www.google.com 时,它应该只下载 www.google.com 下的 html 以及所有样式表、图像和 javascript,而不是跟随任何指向 images.google.com 的链接, labs.google.com 或 www.google.com/subdir/ 等。

我尝试了该-w选项,但没有任何区别。

什么是正确的命令?

编辑

我尝试使用httrack "http://www.google.com/" -O "./www.google.com" "http://www.google.com/" -v -s0 --depth=1,但它不会复制任何图像。

我基本上想要的只是下载该域的索引文件以及所有资产,而不是任何外部或内部链接的内容。

4

5 回答 5

10
httrack "http://www.google.com/" -O "./www.google.com" "http://www.google.com/" -v -s0  --depth=1 -n

-n 选项(或 --near)将下载网页上的图像,无论它位于何处。

假设图像位于 google.com/foo/bar/logo.png。因为,您使用的是 s0(留在同一目录上),除非您指定 --near,否则它不会下载图像

于 2015-01-19T22:00:49.307 回答
9
  • 点击“设置选项”
  • 转到选项卡“限制”
  • 将“最大外部深度”设置为 0

仅使用 httrack 复制一页

于 2017-05-05T13:21:40.863 回答
7

你能用 wget 代替 httrack 吗?wget -p将下载单个页面及其所有“先决条件”(图像、样式表)。

于 2009-12-28T12:57:44.623 回答
2

看例子:

httrack "http://www.all.net/" -O "/tmp/www.all.net" "+*.all.net/*" -v

最后一部分是一个正则表达式。只需制作一个完全匹配的正则表达式。

httrack "http://www.google.com.au/" -O "/tmp/www.google.com.au" "+*.google.com.au/*" -v ---depth=2 --ext-depth=2

我必须本地化,否则我会得到一个重定向页面。您应该本地化到您被定向到的任何谷歌。

于 2009-12-28T08:03:22.893 回答
1

HTTTrack 的目的是跟踪链接。尝试设置--ext-depth=0

于 2009-12-28T08:01:29.013 回答