javascript - 如何在使用 Javascript 的浏览器中解析非 UTF8 XML？

Question

我有一个用 big5 编码的 XML 字符串：

atob('PD94bWwgdmVyc2lvbj0iMS4wIiBlbmNvZGluZz0iYmlnNSIgPz48dGl0bGU+pKSk5TwvdGl0bGU+')

（<?xml version="1.0" encoding="big5" ?><title>中文</title>在 UTF-8 中。）

我想提取<title>. 如何在浏览器中使用纯 Javascript 来做到这一点？最好有没有 jquery 或 emscripten 的轻量级解决方案。

试过了DOMParser：

(new DOMParser()).parseFromString(atob('PD94bWwgdmVyc2lvbj0iMS4wIiBlbmNvZGluZz0iYmlnNSIgPz48dGl0bGU+pKSk5TwvdGl0bGU+'), 'text/xml')

但是 Chromium 和 Firefox 都不尊重 encoding 属性。DOMParser它是仅支持 UTF-8的标准吗？

score 4 · Accepted Answer

我怀疑问题不是DOMParser, but atob，它无法正确解码最初的非 ascii 字符串。*

var encoded = 'PD94bWwgdmVyc2lvbj0iMS4wIiBlbmNvZGluZz0iYmlnNSIgPz48dGl0bGU+pKSk5TwvdGl0bGU+';
var bytes = Base64Binary.decode(encoded);

然后是一些将字节（即解码 big5 数据）转换为 Javascript 字符串的方法。对于 Firefox / Chrome，您可以使用TextDecoder：

var decoder = new TextDecoder('big5'); 
var decoded = decoder.decode(bytes);

然后传递给DOMParser

var dom = (new DOMParser()).parseFromString(decoded, 'text/xml');
var title = dom.children[0].textContent;

*理解原因的一种方式：atob不将原始字符串的编码作为参数，因此虽然它必须在内部将 base64 编码数据解码为字节，但它必须假设这些字节的字符编码是什么然后给你一个 Javascript 字符串，我相信它在内部编码为 UTF-16。

1 回答 1