wget - 如何仅镜像网站的一部分？

Question

我无法让 wget 镜像网站的一部分（根目录下的文件夹路径） - 它似乎只能在网站主页上工作。

我尝试了很多选择 - 这是一个例子

wget -rkp -l3 -np  http://somewebsite/subpath/down/here/

虽然我只想镜像该 URL 下面的内容链接 - 我还需要下载不在该路径中的所有页面资产。

它似乎适用于主页（/），但我无法让它适用于任何子文件夹。

score 89 · Accepted Answer

使用--mirror( -m) 和--no-parent( -np) 选项，以及一些很酷的选项，如本例所示：

wget --mirror --page-requisites --adjust-extension --no-parent --convert-links
     --directory-prefix=sousers http://stackoverflow.com/users

score 19 · Accepted Answer

19

我通常使用：

wget -m -np -p $url

于 2011-05-26T22:11:03.407 回答

score 3 · Accepted Answer

我使用 pavuk 来完成镜像，因为从一开始它似乎就更好地实现了这个目的。你可以使用这样的东西：

/usr/bin/pavuk -enable_js -fnrules F '*.php?*' '%o.php' -tr_str_str '?' '_questionmark_' \
               -norobots -dont_limit_inlines -dont_leave_dir \
               http://www.example.com/some_directory/ >OUT 2>ERR

score 0 · Accepted Answer

查看archivebox.io，它是一个开源、自托管的工具，可创建本地、静态、可浏览的网站HTML 克隆（它保存HTML、JS、媒体文件、PDF、屏幕截图、静态资产等）。

默认情况下，它只会归档您指定的 URL，但我们--depth=n很快会添加一个标志，让您可以递归地归档来自给定 URL 的链接。

wget - 如何仅镜像网站的一部分？

4 回答 4

Related

Reference