9

我想以编程方式保存网页。

我的意思不仅仅是保存 HTML。我还想自动存储所有相关文件(图像、CSS 文件,可能是嵌入的 SWF 等),并希望重写链接以供本地浏览。

预期用途是个人书签应用程序,其中链接内容被缓存以防原始副本被删除。

4

3 回答 3

7

看看wget,特别是 -p 标志

−p  −−page−requisites
This option causes Wget to download all the files
that are necessary to properly display
a givenHTML  page. Thisincludes such
things as inlined images, sounds, and
referenced stylesheets.

以下命令:

wget -p http://<site>/1.html

将下载 page.html 和它需要的所有文件。

于 2009-11-13T22:36:22.887 回答
2

在 Windows 上:您可以将 IE 作为 com 对象运行并拉出所有内容。

另一方面,您可以获取 Mozilla 的来源。

在 Java 中,Lobo

或者commons-httpclient,写了很多代码。

于 2009-11-13T22:37:42.683 回答
0

您可以尝试 MHTML 格式(这是 IE 使用的)。http://en.wikipedia.org/wiki/MHTML

换句话说,您会将每个对象(图像、css 等)下载到您的计算机,然后通过 Base64 将它们“嵌入”到单个文件中。

于 2009-11-13T22:37:53.970 回答