不,顶部的编解码器只通知 Python 如何解释源代码,并使用该编解码器来解释 Unicode 文字。它不会将文字字节串转换为 unicode 值。正如PEP 263所述:
这个 PEP 建议引入一种语法来声明 Python 源文件的编码。然后 Python 解析器使用编码信息来解释使用给定编码的文件。最值得注意的是,这增强了对源代码中 Unicode 文字的解释,并使得可以直接在 Unicode 感知编辑器中使用例如 UTF-8 编写 Unicode 文字。
强调我的。
如果没有编解码器声明,Python 不知道如何解释非 ASCII 字符:
$ cat /tmp/test.py
example = '☃'
$ python2.7 /tmp/test.py
File "/tmp/test.py", line 1
SyntaxError: Non-ASCII character '\xe2' in file /tmp/test.py on line 1, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details
如果 Python 的行为方式符合您的预期,那么您也无法对包含非 ASCII 字节值的字面量字节字符串值进行处理。
如果您的终端被配置为显示 UTF-8 值,那么打印一个 UTF-8 编码的字节字符串看起来是“正确的”,但这只是依靠编码匹配的运气。
获取 unicode 值的正确方法是使用 unicode 文字或以其他方式生成 unicode(从字节字符串解码、将整数代码点转换为 unicode 字符等):
unicode_snowman = '\xe2\x98\x83'.decode('utf8')
unicode_snowman = unichr(0x2603)
在 Python 3 中,编解码器也适用于变量名称的解释方式,因为您可以在名称中使用 ASCII 范围之外的字母和数字。Python 3 中的默认编解码器是 UTF-8,而不是 Python 2 中的 ASCII。