python - 在每个文字的基础上指定 unicode 文字的编码

Question

根据文档，可以像这样定义python源中使用的文字的编码：

# -*- coding: latin-1 -*-

u = u'abcdé'  # This is a unicode string encoded in latin-1

是否有任何语法支持以文字为基础指定编码？我正在寻找类似的东西：

latin1 = u('latin-1')'abcdé'  # This is a unicode string encoded in latin-1
utf8   = u('utf-8')'xxxxx'    # This is a unicode string encoded in utf-8

我知道语法没有意义，但我正在寻找类似的东西。我能做些什么？还是不可能有一个带有不同编码的 unicode 字符串的源文件？

score 1 · Accepted Answer

您无法将unicode文字标记为使用与源文件的其余部分不同的编码，不。

相反，您将手动从字节串中解码文字：

latin1 = 'abcdé'.decode('latin1')  # provided `é` is stored in the source as a E9 byte.

或使用转义序列：

latin1 = 'abcd\xe9'.decode('latin1')

源代码编解码器行的重点是支持在您的编辑器中使用任意编解码器。源代码永远不应该使用混合编码，真的。

1 回答 1