我想以编程方式保存网页。
我的意思不仅仅是保存 HTML。我还想自动存储所有相关文件(图像、CSS 文件,可能是嵌入的 SWF 等),并希望重写链接以供本地浏览。
预期用途是个人书签应用程序,其中链接内容被缓存以防原始副本被删除。
我想以编程方式保存网页。
我的意思不仅仅是保存 HTML。我还想自动存储所有相关文件(图像、CSS 文件,可能是嵌入的 SWF 等),并希望重写链接以供本地浏览。
预期用途是个人书签应用程序,其中链接内容被缓存以防原始副本被删除。
看看wget,特别是 -p 标志
−p −−page−requisites
This option causes Wget to download all the files
that are necessary to properly display
a givenHTML page. Thisincludes such
things as inlined images, sounds, and
referenced stylesheets.
以下命令:
wget -p http://<site>/1.html
将下载 page.html 和它需要的所有文件。
在 Windows 上:您可以将 IE 作为 com 对象运行并拉出所有内容。
另一方面,您可以获取 Mozilla 的来源。
在 Java 中,Lobo。
或者commons-httpclient,写了很多代码。
您可以尝试 MHTML 格式(这是 IE 使用的)。http://en.wikipedia.org/wiki/MHTML
换句话说,您会将每个对象(图像、css 等)下载到您的计算机,然后通过 Base64 将它们“嵌入”到单个文件中。