12

我在本地使用 wget 来获取小型 Web 应用程序的静态快照。当我这样做时,生成的 html 文件会以奇怪的字符代替引号和撇号返回。

我能做些什么来避免这种行为?

谢谢。

4

6 回答 6

11

我建议尝试:

--restrict-file-names=nocontrol

来源: http: //www.win.tue.nl/~aeb/linux/misc/wget.html

于 2014-11-15T02:01:39.673 回答
7

听起来您--remote-encoding可能需要指定--remote-encoding=utf-8.

于 2012-07-05T18:43:56.690 回答
1

我遇到了同样的问题,但后来我发现我的浏览器显示的网页编码错误。例如在 Firefox 中,我只需要更改视图 -> 字符编码 -> Unicode。

于 2014-08-19T13:42:02.017 回答
0

浏览镜像时,我遇到了这个不同的问题(wget带有特殊字符和引号的镜像显示为 Unicode“unknown char”, ?)。

问题变成与不同的服务器编码有关,而不是取决于wget. 原始服务器是一个旧的 Windows+IIS 安装,配置为使用 ISO-8859 编码提供 HTML 页面,而镜像是一个配置为提供 UTF-8 页面的 Linux+Apache 服务器。

解决方案是将 Apache 配置为服务 ISO-8859 页面,将指令添加到正确的虚拟主机AddDefaultCharset ISO-8859-1

于 2017-11-12T06:51:33.007 回答
0

似乎wget无法猜测编码,因此您需要在您的网络应用程序的 html 响应中使用它:

<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">

于 2017-08-25T02:35:05.033 回答
0

我也有这样的问题。我下载的页面似乎被压缩了。您可以使用 wget 中的 -S 选项进行检查。你会发现一个

内容编码:gzip

线。在这种情况下,我使用 zcat 来读取文件。

于 2015-11-06T22:23:55.183 回答