html - 您如何存档整个网站以供离线查看？

Question

实际上，我们已经多次为客户烧录我们的 asp.net 网站的静态/存档副本。到目前为止，我们一直在使用WebZip，但我们遇到了无数的崩溃问题，下载的页面没有正确重新链接等等。

我们基本上需要一个应用程序来抓取和下载我们的 asp.net 网站上所有内容（页面、图像、文档、css 等）的静态副本，然后处理下载的页面，以便可以在没有互联网连接的情况下在本地浏览它们（摆脱链接中的绝对网址等）。白痴证明越多越好。这似乎是一个非常常见且（相对）简单的过程，但我尝试了其他一些应用程序并且真的不为所动

有没有人推荐的存档软件？有没有人愿意分享一个非常简单的过程？

score 67 · Accepted Answer

67

你可以使用wget：

wget -m -k -K -E http://url/of/web/site

于 2009-02-11T21:25:46.120 回答

score 43 · Accepted Answer

在 Windows 中，您可以查看HTTrack。它非常可配置，允许您设置下载速度。但是您可以将它指向一个网站并运行它，而无需任何配置。

以我的经验，它是一个非常好的工具并且运行良好。我喜欢 HTTrack 的一些地方是：

开源许可证
恢复停止的下载
可以更新现有存档
您可以在下载时将其配置为非攻击性，这样就不会浪费您的带宽和站点的带宽。

score 7 · Accepted Answer

hartator的Wayback Machine 下载器既简单又快速。

通过 Ruby 安装，然后使用来自Internet Archive的所需域和可选时间戳运行。

sudo gem install wayback_machine_downloader
mkdir example
cd example
wayback_machine_downloader http://example.com --timestamp 19700101000000

score 4 · Accepted Answer

4

我在 OSX上使用Blue Crab ，在 Windows 上使用 WebCopier。

于 2009-02-11T21:26:07.977 回答

score 2 · Accepted Answer

wget -r -k

...并调查其余的选项。我希望您已遵循以下准则：http ://www.w3.org/Protocols/rfc2616/rfc2616-sec9.html ，因此您的所有资源对于 GET 请求都是安全的。

score 1 · Accepted Answer

1

我只是使用：wget -m <url>。

于 2009-02-11T21:25:26.510 回答

score 1 · Accepted Answer

对于 OS X 用户，我发现在这里找到的 sitesucker 应用程序运行良好，无需配置任何东西，但它跟随链接的深度。

score 1 · Accepted Answer

如果您的客户正在归档合规性问题，您希望确保可以对内容进行身份验证。列出的选项适合简单查看，但它们在法律上是不可接受的。在这种情况下，您正在寻找时间戳和数字签名。如果你自己做会复杂得多。我建议使用PageFreezer 之类的服务。

score 0 · Accepted Answer

我已经使用 HTTrack 好几年了。它可以处理所有页面间链接等。我唯一的抱怨是我还没有找到一个很好的方法来很好地将它限制在一个子站点上。例如，如果我想归档一个网站 www.foo.com/steve，它可能会跟随指向 www.foo.com/rowe 的链接并将其归档。否则很棒。高度可配置且可靠。

html - 您如何存档整个网站以供离线查看？

9 回答 9

Related

Reference