python - Python - “ascii”编解码器无法解码字节

Question

我真的很困惑。我试图编码，但错误说can't decode...。

>>> "你好".encode("utf8")
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 0: ordinal not in range(128)

我知道如何避免字符串上带有“u”前缀的错误。我只是想知道为什么调用编码时错误是“无法解码”。Python 在幕后做什么？

score 170 · Accepted Answer

"你好".encode('utf-8')

encode将 unicode 对象转换为string对象。但是在这里你已经在一个string对象上调用了它（因为你没有 u）。所以python必须先将其转换string为unicode对象。所以它相当于

"你好".decode().encode('utf-8')

但解码失败，因为字符串不是有效的 ascii。这就是为什么您会收到有关无法解码的投诉。

score 53 · Accepted Answer

始终从 unicode编码为字节。
在这个方向上，您可以选择编码。

>>> u"你好".encode("utf8")
'\xe4\xbd\xa0\xe5\xa5\xbd'
>>> print _
你好

另一种方法是从字节解码为 unicode。
在这个方向上，你必须知道编码是什么。

>>> bytes = '\xe4\xbd\xa0\xe5\xa5\xbd'
>>> print bytes
你好
>>> bytes.decode('utf-8')
u'\u4f60\u597d'
>>> print _
你好

这一点怎么强调都不过分。如果您想避免玩 unicode “whack-a-mole”，了解数据级别发生的事情很重要。这里用另一种方式解释：

一个 unicode 对象已经被解码，你永远不想调用decode它。
字节串对象已经编码，你永远不想调用encode它。

现在，在看到.encode字节字符串时，Python 2 首先尝试将其隐式转换为文本（unicode对象）。同样，在看到.decodeunicode 字符串时，Python 2 会隐式尝试将其转换为字节（str对象）。

这些隐式转换是您在调用. 这是因为 encoding 通常接受 type 的参数；接收参数时，在使用另一种编码重新编码之前，会隐式解码为类型的对象。此转换选择默认的“ascii”解码器^{†</sup>，为您提供编码器内的解码错误。}UnicodeDecodeErrorencodeunicodestrunicode

事实上，在 Python 3 中这些方法str.decode甚至bytes.encode都不存在。他们的移除是一种[有争议的]试图避免这种常见的混淆。

^{†</sup> _{...或任何编码sys.getdefaultencoding()提到的；通常这是'ascii'}}

score 41 · Accepted Answer

你可以试试这个

import sys
reload(sys)
sys.setdefaultencoding("utf-8")

或者

您也可以尝试关注

在 .py 文件顶部添加以下行。

# -*- coding: utf-8 -*-

score 8 · Accepted Answer

如果你使用 Python < 3，你需要告诉解释器你的字符串文字是 Unicode，方法是在它前面加上一个u:

Python 2.7.2 (default, Jan 14 2012, 23:14:09) 
[GCC 4.2.1 (Based on Apple Inc. build 5658) (LLVM build 2335.15.00)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> "你好".encode("utf8")
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 0: ordinal not in range(128)
>>> u"你好".encode("utf8")
'\xe4\xbd\xa0\xe5\xa5\xbd'

进一步阅读：Unicode HOWTO。

score 3 · Accepted Answer

你u"你好".encode('utf8')用来编码一个 unicode 字符串。但是，如果要表示"你好"，则应对其进行解码。就像：

"你好".decode("utf8")

你会得到你想要的。也许您应该了解有关编码和解码的更多信息。

score 3 · Accepted Answer

如果您正在处理 Unicode，有时encode('utf-8')您也可以尝试忽略特殊字符而不是 Unicode，例如

"你好".encode('ascii','ignore')

或者按照something.decode('unicode_escape').encode('ascii','ignore')这里的建议。

在此示例中不是特别有用，但在无法转换某些特殊字符的其他情况下可以更好地工作。

或者，您可以考虑使用替换特定字符replace()。

score 2 · Accepted Answer

如果您从 Linux 或类似系统（BSD，不确定 Mac）上的 shell 启动 python 解释器，您还应该检查 shell 的默认编码。

locale charmap从 shell（不是 python 解释器）调用，你应该看到

[user@host dir] $ locale charmap
UTF-8
[user@host dir] $

如果不是这种情况，并且您会看到其他内容，例如

[user@host dir] $ locale charmap
ANSI_X3.4-1968
[user@host dir] $

Python 将（至少在某些情况下，例如在我的情况下）继承 shell 的编码，并且无法打印（一些？全部？） unicode 字符。Python 自己的默认编码，您通过它查看和控制sys.getdefaultencoding()，sys.setdefaultencoding()在这种情况下被忽略。

如果你发现你有这个问题，你可以通过

[user@host dir] $ export LC_CTYPE="en_EN.UTF-8"
[user@host dir] $ locale charmap
UTF-8
[user@host dir] $

（或者选择您想要的任何键盘映射而不是 en_EN。）您还可以编辑/etc/locale.conf（或管理系统中的区域设置定义的任何文件）来更正此问题。

python - Python - “ascii”编解码器无法解码字节

7 回答 7

Related

Reference