character-encoding - wget 和特殊字符

Question

我在本地使用 wget 来获取小型 Web 应用程序的静态快照。当我这样做时，生成的 html 文件会以奇怪的字符代替引号和撇号返回。

我能做些什么来避免这种行为？

谢谢。

score 11 · Accepted Answer

我建议尝试：

--restrict-file-names=nocontrol

score 7 · Accepted Answer

7

听起来您--remote-encoding可能需要指定--remote-encoding=utf-8.

于 2012-07-05T18:43:56.690 回答

score 1 · Accepted Answer

我遇到了同样的问题，但后来我发现我的浏览器显示的网页编码错误。例如在 Firefox 中，我只需要更改视图 -> 字符编码 -> Unicode。

score 0 · Accepted Answer

浏览镜像时，我遇到了这个不同的问题（wget带有特殊字符和引号的镜像显示为 Unicode“unknown char”, ?）。

问题变成与不同的服务器编码有关，而不是取决于wget. 原始服务器是一个旧的 Windows+IIS 安装，配置为使用 ISO-8859 编码提供 HTML 页面，而镜像是一个配置为提供 UTF-8 页面的 Linux+Apache 服务器。

解决方案是将 Apache 配置为服务 ISO-8859 页面，将指令添加到正确的虚拟主机AddDefaultCharset ISO-8859-1

score 0 · Accepted Answer

似乎wget无法猜测编码，因此您需要在您的网络应用程序的 html 响应中使用它：

<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">

score 0 · Accepted Answer

我也有这样的问题。我下载的页面似乎被压缩了。您可以使用 wget 中的 -S 选项进行检查。你会发现一个

内容编码：gzip

线。在这种情况下，我使用 zcat 来读取文件。

6 回答 6