javascript - 使用 node.js 从 windows-1250 编码的网页中获取正确的字符串

Question

我正在尝试使用 nodejs 从网页中抓取一些数据，但我遇到了字符编码问题。该网页指出它的编码是： <meta http-equiv="Content-Type" content="text/html; charset=windows-1250"> 当我用chrome浏览它时，它将编码设置为windows-1250，一切看起来都很好。

由于节点中的流没有 windows-1250 编码/解码（并且 utf8 不起作用），我找到了一个 iconv-lite 包，它应该能够在不同的编码之间轻松转换。但是在将响应保存到文件（或输出到控制台）后，我仍然会得到错误的字符。我还尝试了不同的编码、本机节点缓冲区编码、将标头设置为与我在 chrome ( Accept-Charset': 'ISO-8859-1,utf-8;q=0.7,*;q=0.3) 中看到的相同，但似乎没有任何工作正常。

你可以在这里看到整个代码https://gist.github.com/4110999。

我想我缺少有关编码如何工作的一些基本知识，因此将不胜感激有关如何获取具有正确字符的数据的任何帮助。

编辑：
还尝试了 node-iconv 包，以防它是包问题。将第 51 行更改为：

var decoder = new Iconv_native('WINDOWS-1250', 'UTF-8');  
var decoded = decoder.convert(body).toString();

但仍然得到相同的结果。

score 2 · Accepted Answer

我不熟悉 iconv-lite 包，但是查看它的代码，看起来你需要使用win1250而不是windows1250（见这里）

编码被查找为hash。

此外，自述文件使用此代码而不是“windows1251”：

str = iconv.decode(buf, 'win1251');

score 0 · Accepted Answer

我认为，您正在转换字符串，但您必须转换原始字节！如果（您正在从网络上阅读某些内容，则必须将其作为二进制文件阅读）

从磁盘读取 win-1250 中的文件示例：

var Buffer = require('buffer').Buffer;
var Iconv = require('iconv').Iconv; 

//without options (encoding is not specified), 'fs' reads as raw bytes.
var bytes= fs.readFileSync('myFile.txt'); 
//this is bad: var myBadString = fs.readFileSync('myFile.txt', { encoding: "UTF-8" });

var buf = new Buffer(bytes, 'binary');
var translated = new Iconv('CP1250', 'UTF8').convert(buf).toString();

javascript - 使用 node.js 从 windows-1250 编码的网页中获取正确的字符串

2 回答 2

Related

Reference