4

我正在解析的 JSON 文件中的值之一是Wroc\u00c5\u0082aw. 如何将此字符串转换为产生“Wrocław”的 unicode 对象(在这种情况下这是正确的解码)?

4

2 回答 2

7

看起来,无论生成什么过程,JSON 都会采用 UTF-8 编码的文本并将其误认为是拉丁 1 编码的文本。要修复错误,请反向运行相同的过程:

>>> u'Wroc\u00c5\u0082aw'.encode('iso-8859-1').decode('utf-8')
u'Wroc\u0142aw'
>>> import unicodedata
>>> unicodedata.name(u'\u0142')
'LATIN SMALL LETTER L WITH STROKE'
于 2013-10-03T15:16:09.190 回答
1

看起来您的 JSON 编码不正确,因为 \u00c5 和 \u0082aw 都不会产生您在任何编码中所期望的字符。

但是您可能会尝试将此值编码为 UTF8 或 UTF16

于 2013-10-03T14:18:32.427 回答