3

我正在尝试仅下载站点 www.idea.int 的 /publications/ 文件夹以包含在 USB 驱动器上以供离线查看。

我试过了:

wget --recursive --no-remove-listing -l inf --no-parent --adjust-extension 
 --no-cookies --convert-links --page-requisites http://www.idea.int/publications/ 

仅正确保存 /publications/ 和子文件夹。但是我们在这些页面上有从 static0.idea.int 检索的图像,这些图像既没有下载也没有重新链接,即使这样我也打开了--page-requisites标志。

所以我尝试了:

wget --recursive --no-remove-listing -l inf --no-parent --adjust-extension 
   --no-cookies --convert-links --page-requisites   
   --span-hosts --domains=idea.int http://offline.idea.int/publications/

希望这--span-hosts将允许通过该convert-links步骤下载和重新链接图像。但是,这忽略了该--no-parent选项,并且基本上下载了整个 www.idea.int 站点。

有没有办法可以下载 /publications/ 中的所有 HTML 页面以及这些页面中包含的所有图像资源(甚至在另一个域中)并重新链接它们以供离线查看?

4

1 回答 1

1

这已经很晚了,但是...

wget -p -k -r -np http://www.idea.int/publications/

...应该是正确的命令。

-p(或 --page-requisites)获取显示 HTML 页面所需的所有图像等。

-k(或 --convert-links)使下载的 HTML 或 CSS 中的链接指向本地文件。

-r(或--recursive)指定您想要递归下载(下载所有子项)

-np(或--no-parent)阻止它上升到父目录。

看起来您缺少的是 -p 标志。

注意:上面的一些文字来自 wget --help

于 2015-01-17T14:38:58.543 回答