1

我想将一组 Unicode 字符打印到我的命令提示符终端。即使我强制编码为“UTF-8”,终端也会打印一些垃圾。

$python -c "import sys; print sys.stdout.write(u'\u2044'.encode('UTF-8'))"
ΓüäNone

$python -c "import sys; print sys.stdout.encoding"
cp437

我的默认终端编码是 cp437,我正在尝试覆盖它。这里的预期输出是分数斜线 ( ⁄ )

http://www.fileformat.info/info/unicode/char/2044/index.htm

同一段代码在我的 Mac 终端中完美运行,它使用 UTF-8 作为默认编码。有没有办法在 Windows 上也显示这个?我在 windows 命令提示符下使用的字体是 consolas。

我希望我的代码可以使用任何 Unicode 字符,而不仅仅是这个特定的示例,因为输入是 Web 查询结果,我无法控制它。

4

2 回答 2

6

Python 无法控制终端使用的编码;您必须在其他地方进行更改。

换句话说,仅仅因为您强制 python 将 UTF-8 编码的文本输出到终端,并不意味着您的终端也会神奇地开始接受该输出为 UTF-8。

Mac OS X 终端已配置为使用 UTF-8。

chcp在 Windows 上,您可以使用以下命令切换控制台代码页:

chcp 65001

其中 65001 是 UTF-8 的 Windows 代码页。请参阅Windows 命令行中的 Unicode 字符 - 如何?

于 2012-09-08T11:50:51.507 回答
3

您必须使用 UTF-8 代码页 (cp65001) 才能显示 UTF-8 编码文本。

Python 3.3 声称在 Windows 上支持代码页 65001 (UTF-8)。

C:\>chcp 65001
Active code page: 65001

C:\>python
Python 3.3.0rc1 (v3.3.0rc1:8bb5c7bc46ba, Aug 25 2012, 13:50:30) [MSC v.1600 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> print('\u2044')
⁄

虽然有问题:

>>> print('\u2044')
⁄

>>> print('\u2044'*8)
⁄⁄⁄⁄⁄⁄⁄⁄
��⁄⁄⁄⁄
⁄⁄
��

>>> print('1\u20442 2\u20443 4\u20445')
1⁄2 2⁄3 4⁄5
⁄5
于 2012-09-08T15:42:44.040 回答