1

为了记录 utf-8 字符串,我是否需要手动记录 print 为我所做的事情?

for line in unicodecsv.reader(cfile, encoding="utf-8"):
    for i in line:
        print "process_clusters: From CSV: %s" % i
        print "repr: %s" % repr(i)
        log.debug("process_clusters: From CSV: %s", i)

无论字符串是基于拉丁文还是俄文西里尔文,我的打印语句都可以正常工作。

process_clusters: From CSV: escuchan
repr: u'escuchan'
process_clusters: From CSV: говоритъ
repr: u'\u0433\u043e\u0432\u043e\u0440\u0438\u0442\u044a'

但是,log.debug 不会让我传入相同的变量。我收到此错误:

Traceback (most recent call last):
  File "/System/Library/Frameworks/Python.framework/Versions/2.6/lib/python2.6/logging/__init__.py", line 765, in emit
    self.stream.write(fs % msg.encode("UTF-8"))
  File "/System/Library/Frameworks/Python.framework/Versions/2.6/lib/python2.6/codecs.py", line 686, in write
    return self.writer.write(data)
  File "/System/Library/Frameworks/Python.framework/Versions/2.6/lib/python2.6/codecs.py", line 351, in write
    data, consumed = self.encode(object, self.errors)
UnicodeDecodeError: 'ascii' codec can't decode byte 0xd0 in position 28: ordinal not in range(128)

我的日志、格式化程序和处理程序是:

log = logging.getLogger(__name__)
loglvl = getattr(logging, loglevel.upper()) # convert text log level to numeric
log.setLevel(loglvl) # set log level
handler = logging.FileHandler('inflection_finder.log', 'w', 'utf-8')
handler.setFormatter(logging.Formatter('[%(levelname)s] %(message)s'))
log.addHandler(handler)

我正在使用 Python 2.6.7。

4

2 回答 2

2

阅读回溯,日志模块似乎正在尝试在写入消息之前对其进行编码。该消息被假定为 ASCII 字符串,但它不可能是因为它包含 UTF-8 字符。如果在将消息传递给记录器之前将消息转换为 Unicode,它可能会起作用。

    log.debug(u"process_clusters: From CSV: %s", i)

编辑,我注意到您的参数字符串已经解码为 Unicode,因此我相应地更新了示例。

同样根据您的最新编辑,您可能希望在设置中使用 Unicode 字符串:

handler.setFormatter(logging.Formatter(u'[%(levelname)s] %(message)s'))
                                     --^--
于 2013-02-20T21:30:48.120 回答
1

Python2 中的所有字符串与 unicode 都是一团糟……幸运的是,在 Python3 中得到了纠正。但是假设迁移到 Python3 不是一种选择,那就去吧。

logging正如我所看到的,在使用编码时有两个选项:

  1. 以二进制形式打开文件并将所有字符串用作字节字符串。
  2. 以文本形式打开文件并将所有字符串用作 unicode-strings。

任何其他选择都注定失败!

问题是您"utf-8"在打开文件时指定了编码,但您的俄语文本是 unicode 字符串。

因此,您可以执行以下一项(仅一项)操作:

  1. 以二进制打开文件,即从构造中删除"utf-8"参数。FileStream
  2. 将所有相关文本转换为 unicode 字符串,其中包括参数 tolog.debug和一个 to logging.Formatter
于 2013-02-21T12:02:50.713 回答