我正在尝试像这样解析希伯来语 rss: http ://rss.walla.co.il/?w=/3/0/12/@rss.e
我正在使用 feedparser 和 request,问题是编码是 windows-1255 而不是 UTF-8
所以我看到的文字是:������������,而不是普通的希伯来文。
我尝试了一些转换(如 iconv-lite),但没有成功。
这是我的代码:
function getAll(URL) {
var request = require('request');
request(URL, function (error, response, body) {
if (!error && response.statusCode == 200) {
var allXML = body.substring(body.indexOf('<title>') + ('<title>').length, body.indexOf('</title>'));
var text = iconv.decode(new Buffer(allXML), 'win1255');
console.log("text = ", text);
}
})
}
这就是它打印的内容: text = ן¿½ן¿½ן¿½ן¿½ן¿½!ן¿½ן¿½ן¿½ן¿½ן¿½ - ן¿½ן¿½ן¿½ן¿½ן¿½