我正在尝试使用以下命令下载整个网页
wget -p -k www.myspace.com/
这确实会下载该目录下的页面和任何图像或脚本,但我正在尝试弄清楚如何下载该页面以完全离线查看。我如何在 www.myspace.com 的源代码中获得链接的每个图像、脚本和样式表,包括外部链接?
我正在尝试使用以下命令下载整个网页
wget -p -k www.myspace.com/
这确实会下载该目录下的页面和任何图像或脚本,但我正在尝试弄清楚如何下载该页面以完全离线查看。我如何在 www.myspace.com 的源代码中获得链接的每个图像、脚本和样式表,包括外部链接?
wget -e robots=off -H -p -k http://www.myspace.com/
-H 或 --span-hosts 标志是完整镜像所必需的,因为该页面可能包含 www.myspace.com 域之外的主机上的内容。忽略机器人以获得良好的衡量标准。
wget -mk http://www.myspace.com/
为我工作。我不确定 myspace 或您要专门镜像的任何站点,但有时您必须传递一些其他选项来绕过无机器人政策。我不会说如何做到这一点,因为这意味着你正在做你不应该做的事情。虽然这绝对是可能的。