362

当管道输出 Python 程序的输出时,Python 解释器对编码感到困惑,并将其设置为 None。这意味着这样的程序:

# -*- coding: utf-8 -*-
print u"åäö"

正常运行时会正常工作,但会失败:

UnicodeEncodeError:“ascii”编解码器无法在位置 0 编码字符 u'\xa0':序数不在范围内(128)

在管道序列中使用时。

管道时完成这项工作的最佳方法是什么?我可以告诉它使用外壳/文件系统/正在使用的任何编码吗?

到目前为止,我看到的建议是直接修改您的 site.py,或使用此 hack 硬编码默认编码:

# -*- coding: utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
print u"åäö"

有没有更好的方法来使管道工作?

4

11 回答 11

169

您的代码在脚本中运行时有效,因为 Python 将输出编码为您的终端应用程序使用的任何编码。如果你是管道,你必须自己编码。

一条经验法则是:始终在内部使用 Unicode。解码您收到的内容,并对您发送的内容进行编码。

# -*- coding: utf-8 -*-
print u"åäö".encode('utf-8')

另一个教学示例是一个 Python 程序,用于在 ISO-8859-1 和 UTF-8 之间进行转换,使介于两者之间的所有内容都大写。

import sys
for line in sys.stdin:
    # Decode what you receive:
    line = line.decode('iso8859-1')

    # Work with Unicode internally:
    line = line.upper()

    # Encode what you send:
    line = line.encode('utf-8')
    sys.stdout.write(line)

设置系统默认编码不是一个好主意,因为您使用的某些模块和库可能依赖于它是 ASCII 的事实。不要这样做。

于 2009-01-29T18:03:18.150 回答
168

首先,关于这个解决方案:

# -*- coding: utf-8 -*-
print u"åäö".encode('utf-8')

每次都使用给定的编码显式打印是不切实际的。这将是重复且容易出错的。

更好的解决方案是sys.stdout在程序开始时进行更改,以使用选定的编码进行编码。这是我在Python 上找到的一种解决方案:如何选择 sys.stdout.encoding?,特别是“toka”的评论:

import sys
import codecs
sys.stdout = codecs.getwriter('utf8')(sys.stdout)
于 2009-07-23T02:05:58.510 回答
138

您可能想尝试将环境变量“PYTHONIOENCODING”更改为“utf_8”。我已经写了一页关于这个问题的磨难

Tl;博士博客文章:

import sys, locale, os
print(sys.stdout.encoding)
print(sys.stdout.isatty())
print(locale.getpreferredencoding())
print(sys.getfilesystemencoding())
print(os.environ["PYTHONIOENCODING"])
print(chr(246), chr(9786), chr(9787))

给你

utf_8
False
ANSI_X3.4-1968
ascii
utf_8
ö ☺ ☻
于 2010-10-26T20:30:35.287 回答
63
export PYTHONIOENCODING=utf-8

做这项工作,但不能在python本身上设置它......

我们可以做的是验证是否没有设置并告诉用户在调用脚本之前设置它:

if __name__ == '__main__':
    if (sys.stdout.encoding is None):
        print >> sys.stderr, "please set python env PYTHONIOENCODING=UTF-8, example: export PYTHONIOENCODING=UTF-8, when write to stdout."
        exit(1)

更新以回复评论:问题只是在管道到 stdout 时存在。我在 Fedora 25 Python 2.7.13 中测试过

python --version
Python 2.7.13

猫b.py

#!/usr/bin/env python
#-*- coding: utf-8 -*-
import sys

print sys.stdout.encoding

运行./b.py

UTF-8

运行./b.py | 较少的

None
于 2011-06-15T18:40:18.733 回答
5

上周我遇到了类似的问题。在我的 IDE (PyCharm) 中很容易修复。

这是我的修复:

从 PyCharm 菜单栏开始:文件 -> 设置... -> 编辑器 -> 文件编码,然后设置:“IDE 编码”、“项目编码”和“属性文件的默认编码”全部为 UTF-8,她现在可以工作了像一个魅力。

希望这可以帮助!

于 2015-06-21T02:54:18.990 回答
4

Craig McQueen 答案的一个有争议的净化版本。

import sys, codecs
class EncodedOut:
    def __init__(self, enc):
        self.enc = enc
        self.stdout = sys.stdout
    def __enter__(self):
        if sys.stdout.encoding is None:
            w = codecs.getwriter(self.enc)
            sys.stdout = w(sys.stdout)
    def __exit__(self, exc_ty, exc_val, tb):
        sys.stdout = self.stdout

用法:

with EncodedOut('utf-8'):
    print u'ÅÄÖåäö'
于 2015-04-13T10:24:12.263 回答
2

我可以通过调用来“自动化”它:

def __fix_io_encoding(last_resort_default='UTF-8'):
  import sys
  if [x for x in (sys.stdin,sys.stdout,sys.stderr) if x.encoding is None] :
      import os
      defEnc = None
      if defEnc is None :
        try:
          import locale
          defEnc = locale.getpreferredencoding()
        except: pass
      if defEnc is None :
        try: defEnc = sys.getfilesystemencoding()
        except: pass
      if defEnc is None :
        try: defEnc = sys.stdin.encoding
        except: pass
      if defEnc is None :
        defEnc = last_resort_default
      os.environ['PYTHONIOENCODING'] = os.environ.get("PYTHONIOENCODING",defEnc)
      os.execvpe(sys.argv[0],sys.argv,os.environ)
__fix_io_encoding() ; del __fix_io_encoding

是的,如果这个“setenv”失败,这里可能会出现无限循环。

于 2012-03-15T09:59:11.367 回答
2

我只是想在这里提一些我必须花很长时间试验的东西,然后我才最终意识到发生了什么。这对这里的每个人来说可能都很明显,以至于他们都懒得提它。但如果他们有的话,它会帮助我,所以按照这个原则......!

注意:我正在使用Jython,v 2.7,所以这可能不适用于CPython ...

NB2:我的 .py 文件的前两行是:

# -*- coding: utf-8 -*-
from __future__ import print_function

“%”(又名“插值运算符”)字符串构造机制也会导致其他问题......如果“环境”的默认编码是 ASCII 并且您尝试执行类似的操作

print( "bonjour, %s" % "fréd" )  # Call this "print A"

您在 Eclipse 中运行不会有任何困难...在 Windows CLI(DOS 窗口)中,您会发现编码是代码页 850(我的 Windows 7 操作系统)或类似的东西,它至少可以处理欧洲重音字符,所以它会工作的。

print( u"bonjour, %s" % "fréd" ) # Call this "print B"

也将工作。

如果,OTOH,您从 CLI 定向到文件,则标准输出编码将为无,默认为 ASCII(无论如何在我的操作系统上),它将无法处理上述任何一种打印...(可怕的编码错误)。

那么你可能会考虑通过使用重定向你的标准输出

sys.stdout = codecs.getwriter('utf8')(sys.stdout)

并尝试在 CLI 管道中运行到文件...很奇怪,上面的 print A 可以工作...但是上面的 print B 会抛出编码错误!但是,以下将正常工作:

print( u"bonjour, " + "fréd" ) # Call this "print C"

我得出的结论(暂时)是,如果将使用“u”前缀指定为Unicode字符串的字符串提交给 %-handling 机制,它似乎涉及使用默认环境编码,而不管您是否已将标准输出设置为重定向!

人们如何处理这是一个选择问题。我会欢迎 Unicode 专家说出为什么会发生这种情况,我是否在某些方面弄错了,对此的首选解决方案是什么,它是否也适用于CPython,是否发生在 Python 3 中等等,等等。

于 2014-03-07T20:44:05.803 回答
2

我在遗留应用程序中遇到了这个问题,并且很难确定打印的位置。我帮助自己解决了这个问题:

# encoding_utf8.py
import codecs
import builtins


def print_utf8(text, **kwargs):
    print(str(text).encode('utf-8'), **kwargs)


def print_utf8(fn):
    def print_fn(*args, **kwargs):
        return fn(str(*args).encode('utf-8'), **kwargs)
    return print_fn


builtins.print = print_utf8(print)

在我的脚本之上,test.py:

import encoding_utf8
string = 'Axwell Λ Ingrosso'
print(string)

请注意,这会将所有对 print 的调用更改为使用编码,因此您的控制台将打印以下内容:

$ python test.py
b'Axwell \xce\x9b Ingrosso'
于 2018-02-22T12:55:56.397 回答
2

在 Windows 上,我在从编辑器(如 Sublime Text)运行 Python 代码时经常遇到这个问题,但如果从命令行运行它则不会

在这种情况下,请检查编辑器的参数。在 SublimeText 的情况下,这Python.sublime-build解决了它:

{
  "cmd": ["python", "-u", "$file"],
  "file_regex": "^[ ]*File \"(...*?)\", line ([0-9]*)",
  "selector": "source.python",
  "encoding": "utf8",
  "env": {"PYTHONIOENCODING": "utf-8", "LANG": "en_US.UTF-8"}
}
于 2019-11-15T12:50:30.180 回答
1

从 Python 3.7 开始,我们可以使用 Python UTF-8 模式,通过使用命令行选项 -X utf8:

 python -X utf8 testzh.py

脚本 testzh.py 包含

print("Content-type: text/html; charset=UTF-8\n") 
print("地球你好!")

要将 Windows 10 Internet 服务 IIS 设置为 CGI 脚本处理程序,

我们将 Executable 设置为:

"C:\Program Files\Python39\python.exe" -X utf8 %s

在此处输入图像描述

这适用于浏览器 Microsoft.Edge 上预期的中文表意文字,如下图所示:否则,会发生错误。

在此处输入图像描述

请参阅https://docs.python.org/3/library/os.html#utf8-mode

于 2021-10-11T11:48:02.327 回答