2

我正在尝试从 musicbrainz 的 API 服务返回 JSON,某些歌曲的返回数据包含 unicode 字符,我无法将它们转换为常规符号等。请让我知道我应该在这里做什么。

JSON:

{
    "status": "ok",
    "results": [{
        "recordings": [{
            "duration": 402,
            "tracks": [{
                "duration": 402,
                "position": 6,
                "medium": {
                    "release": {
                        "id": "dde6ecee-8e9b-4b46-8c28-0f8d659f83ac",
                        "title": "Tecno Fes, Volume 2"
                    },
                    "position": 1,
                    "track_count": 11
                },
                "artists": [{
                    "id": "57c1e5ea-e08f-413a-bcb1-f4e4b675bead",
                    "name": "Gigi D\u2019Agostino"
                }],
                "title": "You Spin Me Round"
            }],
            "id": "2e0a7bce-9e44-4a63-a789-e8c4d2a12af9"
        }, ....

失败的代码(示例):

string = '\u0420\u043e\u0441\u0441\u0438\u044f'
print string.encode('utf-8')

我在 Windows 7 机器上使用它并拥有 python 2.7 并在命令行终端上运行此代码。我得到以下输出:

C:\Python27>python junk.py Gigi DGÇÖAgostino Gigi D?Agostino Gigi D\u2019Agostino

我期望输出是Gigi D' Agostino

4

3 回答 3

1

Unicode 转义仅适用于 unicode 字符串,将您的常规字符串转换为 unicode 使用str.decode('unicode-escape')

In [1]: s='\u0420\u043e\u0441\u0441\u0438\u044f'

In [2]: s
Out[2]: '\\u0420\\u043e\\u0441\\u0441\\u0438\\u044f'

In [3]: s.decode('unicode-escape')
Out[3]: u'\u0420\u043e\u0441\u0441\u0438\u044f'

In [4]: print s.decode('unicode-escape')
Россия

In [5]: s2="Gigi D\u2019Agostino"

In [6]: s2
Out[6]: 'Gigi D\\u2019Agostino'

In [7]: print s2.decode('unicode-escape')
Gigi D’Agostino
于 2013-01-15T20:54:33.523 回答
0

您应该像任何有效的 json 解析器一样使用返回 Unicode 字符串的 json 解析器。您失败的示例显示了一个字节串,即您没有使用 json 解析器。

例如解析 json 数据:

obj = json.load(urllib2.urlopen(request))

obj在不使用 Unicode 转义的情况下进行漂亮的打印:

print json.dumps(obj, indent=4, ensure_ascii=False)

了解以下之间的区别也很有用:

print unicode_string

和:

print repr(unicode_string)
于 2013-01-16T03:13:42.837 回答
0

cmd在Windows中使用?在这种情况下,让 Unicode 正常工作以正确显示可能有点麻烦。您可能想考虑使用另一个“终端”来测试您的脚本。 MSYS提供了一个不错的终端/shell,IDLE 包含在 Windows Python 发行版中,并且有一个 Python Shell(右键单击,在 IDLE 中打开,F5)。

如果你真的想让它在cmd

您必须Lucida Consolecmd. 然后:

> chcp
Active code page: 850
> chcp 65001

然后你应该在cmd. 您的“活动代码页”可能不同。请注意某处,因为您可能想在之后将其更改回来:

> chcp 850

否则你会遇到其他问题(启动.bat文件不起作用)。(另见批处理文件编码

在您的脚本中,您还需要这个:

import codecs

def cp65001(name):
    """This might be buggy, but better than just a LookupError
    """
    if name.lower() == "cp65001":
        return codecs.lookup("utf-8")

codecs.register(cp65001)

否则python会崩溃。(见windows-cmd-encoding-change-causes-python-crash

我的脚本有类似的错误报告


您也可以考虑使用库来访问 MusicBrainz Web 服务。 Python-musicbrainzngs适用于当前的 ws/2。

于 2013-01-16T03:46:45.373 回答