python - 读取 JSON：“\u00c5\u0082”是什么编码？如何将其获取到 unicode 对象？

Question

我正在解析的 JSON 文件中的值之一是Wroc\u00c5\u0082aw. 如何将此字符串转换为产生“Wrocław”的 unicode 对象（在这种情况下这是正确的解码）？

score 7 · Accepted Answer

看起来，无论生成什么过程，JSON 都会采用 UTF-8 编码的文本并将其误认为是拉丁 1 编码的文本。要修复错误，请反向运行相同的过程：

>>> u'Wroc\u00c5\u0082aw'.encode('iso-8859-1').decode('utf-8')
u'Wroc\u0142aw'
>>> import unicodedata
>>> unicodedata.name(u'\u0142')
'LATIN SMALL LETTER L WITH STROKE'

score 1 · Accepted Answer

看起来您的 JSON 编码不正确，因为 \u00c5 和 \u0082aw 都不会产生您在任何编码中所期望的字符。

但是您可能会尝试将此值编码为 UTF8 或 UTF16

python - 读取 JSON：“\u00c5\u0082”是什么编码？如何将其获取到 unicode 对象？

2 回答 2

Related

Reference