我在本地使用 wget 来获取小型 Web 应用程序的静态快照。当我这样做时,生成的 html 文件会以奇怪的字符代替引号和撇号返回。
我能做些什么来避免这种行为?
谢谢。
我在本地使用 wget 来获取小型 Web 应用程序的静态快照。当我这样做时,生成的 html 文件会以奇怪的字符代替引号和撇号返回。
我能做些什么来避免这种行为?
谢谢。
听起来您--remote-encoding
可能需要指定--remote-encoding=utf-8
.
我遇到了同样的问题,但后来我发现我的浏览器显示的网页编码错误。例如在 Firefox 中,我只需要更改视图 -> 字符编码 -> Unicode。
浏览镜像时,我遇到了这个不同的问题(wget
带有特殊字符和引号的镜像显示为 Unicode“unknown char”, ?
)。
问题变成与不同的服务器编码有关,而不是取决于wget
. 原始服务器是一个旧的 Windows+IIS 安装,配置为使用 ISO-8859 编码提供 HTML 页面,而镜像是一个配置为提供 UTF-8 页面的 Linux+Apache 服务器。
解决方案是将 Apache 配置为服务 ISO-8859 页面,将指令添加到正确的虚拟主机AddDefaultCharset ISO-8859-1
似乎wget
无法猜测编码,因此您需要在您的网络应用程序的 html 响应中使用它:
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
我也有这样的问题。我下载的页面似乎被压缩了。您可以使用 wget 中的 -S 选项进行检查。你会发现一个
内容编码:gzip
线。在这种情况下,我使用 zcat 来读取文件。