3

我正在尝试将度数符号连接到一个字符串,以便我可以将它写入一个 word 文档。我试过这样做。

degreeChar = u'\N{DEGREE SIGN}'
print degreeChar.encode('UTF-8')

我从中得到的输出是°,我不确定为什么Â会出现。我究竟做错了什么?非常沮丧!

谢谢。

4

3 回答 3

6

当你这样做时:

>>> degreeChar = u'\N{DEGREE SIGN}'

degreeChar是一个单字符的 Unicode 字符串——特别是u'°'

>>> len(degreeChar)
1
>>> ord(degreeChar)
176

当您将其编码为 UTF-8 时,您会得到一个 2 字节的 UTF-8 字节字符串:

>>> dc = degreeChar.encode('UTF-8')
>>> len(dc)
2
>>> ord(dc[0]), ord(dc[1])
(194, 176)

作为 UTF-8,这对字节意味着u'°'. 但是,例如 Latin-1 或 cp1252,完全相同的一对字节表示u'°'. 这就是不同编码的全部意义——相同的字节序列在不同的编码中意味着不同的东西。要查看详细信息:

>>> dc2 = dc.decode('latin-1')
>>> len(dc2)
2
>>> ord(dc2[0]), ord(dc2[1])
(194, 176)

那么,如果您尝试print将 UTF-8 字符串连接到 cp1252 终端会发生什么情况?或者将其保存为二进制文件,然后以 cp1252 文本文件的形式打开?好吧,你°当然明白。


那么,你如何解决这个问题?

好吧,只是不要尝试将 UTF-8 编码的字节打印到 cp1252 终端!如果 Python 成功猜到了终端的编码,只需首先将其打印为 Unicode 字符串:

>>> print u'°'
°

如果没有,您要么需要修复您的配置,以便 Python正确猜测您的终端编码(在大多数 *nix 系统上很容易,在 Windows 上则不然......),或者手动指定它,或者只是编码为正确的编码而不是错误的一:

>>> print u'°'.encode('cp1252')
°
于 2013-08-05T19:21:26.997 回答
0
degreeChar = u'\N{DEGREE SIGN}'
print degreeChar

它应该可以作为 unicode ... 至少在 Windows 7 上,此命令按预期工作

于 2013-08-05T18:57:10.000 回答
0

所在的文档°是用 UTF-8 编码的,但解释器认为它是不同的。

就我而言,我只是在该文档中添加了 UTF-8 BOM 标记,因此解释器会意识到内容编码。

于 2020-02-04T09:30:21.077 回答