wget - 我可以让 wget 只检索一个文件夹（及其子文件夹），还可以保存和重新链接外部图像吗？

Question

我正在尝试仅下载站点 www.idea.int 的 /publications/ 文件夹以包含在 USB 驱动器上以供离线查看。

我试过了：

wget --recursive --no-remove-listing -l inf --no-parent --adjust-extension 
 --no-cookies --convert-links --page-requisites http://www.idea.int/publications/

仅正确保存 /publications/ 和子文件夹。但是我们在这些页面上有从 static0.idea.int 检索的图像，这些图像既没有下载也没有重新链接，即使这样我也打开了--page-requisites标志。

所以我尝试了：

wget --recursive --no-remove-listing -l inf --no-parent --adjust-extension 
   --no-cookies --convert-links --page-requisites   
   --span-hosts --domains=idea.int http://offline.idea.int/publications/

希望这--span-hosts将允许通过该convert-links步骤下载和重新链接图像。但是，这忽略了该--no-parent选项，并且基本上下载了整个 www.idea.int 站点。

有没有办法可以下载 /publications/ 中的所有 HTML 页面以及这些页面中包含的所有图像资源（甚至在另一个域中）并重新链接它们以供离线查看？

score 1 · Accepted Answer

这已经很晚了，但是...

wget -p -k -r -np http://www.idea.int/publications/

...应该是正确的命令。

-p（或 --page-requisites）获取显示 HTML 页面所需的所有图像等。

-k（或 --convert-links）使下载的 HTML 或 CSS 中的链接指向本地文件。

-r（或--recursive）指定您想要递归下载（下载所有子项）

-np（或--no-parent）阻止它上升到父目录。

看起来您缺少的是 -p 标志。

注意：上面的一些文字来自 wget --help

wget - 我可以让 wget 只检索一个文件夹（及其子文件夹），还可以保存和重新链接外部图像吗？

1 回答 1

Related

Reference