我正在尝试仅下载站点 www.idea.int 的 /publications/ 文件夹以包含在 USB 驱动器上以供离线查看。
我试过了:
wget --recursive --no-remove-listing -l inf --no-parent --adjust-extension
--no-cookies --convert-links --page-requisites http://www.idea.int/publications/
仅正确保存 /publications/ 和子文件夹。但是我们在这些页面上有从 static0.idea.int 检索的图像,这些图像既没有下载也没有重新链接,即使这样我也打开了--page-requisites
标志。
所以我尝试了:
wget --recursive --no-remove-listing -l inf --no-parent --adjust-extension
--no-cookies --convert-links --page-requisites
--span-hosts --domains=idea.int http://offline.idea.int/publications/
希望这--span-hosts
将允许通过该convert-links
步骤下载和重新链接图像。但是,这忽略了该--no-parent
选项,并且基本上下载了整个 www.idea.int 站点。
有没有办法可以下载 /publications/ 中的所有 HTML 页面以及这些页面中包含的所有图像资源(甚至在另一个域中)并重新链接它们以供离线查看?