在 python 2.7 我有这个:
# -*- coding: utf-8 -*-
from nltk.corpus import abc
with open("abc.txt","w") as f:
f.write(" ".join(i.words()))
然后我尝试在 Python 3 中阅读此文档:
with open("abc.txt", 'r', encoding='utf-8') as f:
f.read()
只得到:
File "C:\Python32\lib\codecs.py", line 300, in decode
(result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf8' codec can't decode byte 0xc3 in position 633096: invalid continuation byte
我做错了什么?Notepad++ 似乎表明该文档是 Unicode utf-8。即使我尝试使用 Notepad++ 将文档转换为这种格式,我仍然在 python 3 中收到此错误,这很奇怪,因为我阅读了许多其他 utf-8 编码的文档而没有任何问题。