python - Python utf-8 处理

Question

我正在使用 Python 2.6.1，并且我的代码遇到了与 utf-8 相关的问题。使用此代码可以重现此问题：

# -*- coding: utf-8 -*-
import os, sys
import string, time
import codecs, re
bDATA='"Domenick Lombardozzi","Eddie Marsan","Isaach De Bankolé","John Hawkes"'
print (bDATA)
fileObj = codecs.open("btvresp1.txt", "r", "utf-8")
data = fileObj.read()
print (data)

首版bDATA作品就好了。但是，如果相同的数据在文件 btcresp1.txt 文件中，python 会报错如下：

cat btvresp2.txt
"Domenick Lombardozzi","Eddie Marsan","Isaach De Bankol?","John Hawkes"

python
Python 2.6.1 (r261:67515, Feb 11 2010, 00:51:29) 
[GCC 4.2.1 (Apple Inc. build 5646)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> # -*- coding: utf-8 -*-
... 
>>> import os, sys
>>> import string, time
>>> import codecs, re
>>> bDATA='"Domenick Lombardozzi","Eddie Marsan","Isaach De Bankol","John Hawkes"'
>>> print (bDATA)
"Domenick Lombardozzi","Eddie Marsan","Isaach De Bankol","John Hawkes"
>>> fileObj = codecs.open("btvresp2.txt", "r", "utf-8")
>>> data = fileObj.read()
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/System/Library/Frameworks/Python.framework/Versions/2.6/lib/python2.6/codecs.py", line 666, in read
    return self.reader.read(size)
  File "/System/Library/Frameworks/Python.framework/Versions/2.6/lib/python2.6/codecs.py", line 472, in read
    newchars, decodedbytes = self.decode(data, self.errors)
UnicodeDecodeError: 'utf8' codec can't decode bytes in position 55-57: invalid data

我不确定为什么从文件中读取相同的数据会导致问题。有人可以解释为什么会出现这种行为以及如何解决这个问题吗？

提前致谢！

score 2 · Accepted Answer

看起来您的文件内容未以 UTF-8 编码。你确定你没有用其他编码保存它吗？当您cat输入文件时，终端会显示 a?而不是é，这也会暗示文件中的编码问题，因为您的终端似乎使用 UTF-8。

你还有两个文件，btvresp1.txt和btvresp2.txt. 你用的是正确的吗？

score 1 · Accepted Answer

codecs.open返回一个对象，其read方法返回一个unicode字符串，而不是编码的字节字符串——这就是codecs.open函数的全部意义所在。因此，print (data)如果您使用它，将与您的工作完全不同print (bDATA)：后者正在打印 utf-8 编码的字节字符串，后者将尝试打印 unicode 对象（这可能会或可能不会工作，具体取决于在您的环境中 - 但是，您应该可以在 Terminal.app 设置为使用 utf-8 编码）。

但是，您的问题出现得更早：编解码器生成的类文件对象断言字节 55 到 57不是有效的 utf-8 编码。检查的方法类似于...：

>>> f = open("btvresp2.txt", "rb")
>>> print repr(f.read()[50:65])

为了上下文，我还显示了前后几个字节。如果您这样做并编辑您的问题以向我们展示结果，我们可能能够猜测您的文件实际上是什么编码（此时唯一可以确定的是它不是utf-8 编码）。

python - Python utf-8 处理

2 回答 2

Related

Reference