http - 使用 httrack 镜像单页

Question

我正在尝试使用 httrack ( http://www.httrack.com/ ) 来下载单个页面，而不是整个站点。因此，例如，当使用 httrack 下载 www.google.com 时，它应该只下载 www.google.com 下的 html 以及所有样式表、图像和 javascript，而不是跟随任何指向 images.google.com 的链接， labs.google.com 或 www.google.com/subdir/ 等。

我尝试了该-w选项，但没有任何区别。

什么是正确的命令？

编辑

我尝试使用httrack "http://www.google.com/" -O "./www.google.com" "http://www.google.com/" -v -s0 --depth=1，但它不会复制任何图像。

我基本上想要的只是下载该域的索引文件以及所有资产，而不是任何外部或内部链接的内容。

score 10 · Accepted Answer

httrack "http://www.google.com/" -O "./www.google.com" "http://www.google.com/" -v -s0  --depth=1 -n

-n 选项（或 --near）将下载网页上的图像，无论它位于何处。

假设图像位于 google.com/foo/bar/logo.png。因为，您使用的是 s0（留在同一目录上），除非您指定 --near，否则它不会下载图像

score 9 · Accepted Answer

9

点击“设置选项”
转到选项卡“限制”
将“最大外部深度”设置为 0

于 2017-05-05T13:21:40.863 回答

score 7 · Accepted Answer

你能用 wget 代替 httrack 吗？wget -p将下载单个页面及其所有“先决条件”（图像、样式表）。

score 2 · Accepted Answer

看例子：

httrack "http://www.all.net/" -O "/tmp/www.all.net" "+*.all.net/*" -v

最后一部分是一个正则表达式。只需制作一个完全匹配的正则表达式。

httrack "http://www.google.com.au/" -O "/tmp/www.google.com.au" "+*.google.com.au/*" -v ---depth=2 --ext-depth=2

我必须本地化，否则我会得到一个重定向页面。您应该本地化到您被定向到的任何谷歌。

score 1 · Accepted Answer

1

HTTTrack 的目的是跟踪链接。尝试设置--ext-depth=0。

于 2009-12-28T08:01:29.013 回答

http - 使用 httrack 镜像单页

5 回答 5

Related

Reference