python - Python：UnicodeDecodeError：'utf8'编解码器无法解码字节

Question

我正在将一堆 RTF 文件读入 python 字符串。在某些文本上，我收到此错误：

Traceback (most recent call last):
  File "11.08.py", line 47, in <module>
    X = vectorizer.fit_transform(texts)
  File "C:\Python27\lib\site-packages\sklearn\feature_extraction\text.py", line
716, in fit_transform
    X = super(TfidfVectorizer, self).fit_transform(raw_documents)
  File "C:\Python27\lib\site-packages\sklearn\feature_extraction\text.py", line
398, in fit_transform
    term_count_current = Counter(analyze(doc))
  File "C:\Python27\lib\site-packages\sklearn\feature_extraction\text.py", line
313, in <lambda>
    tokenize(preprocess(self.decode(doc))), stop_words)
  File "C:\Python27\lib\site-packages\sklearn\feature_extraction\text.py", line
224, in decode
    doc = doc.decode(self.charset, self.charset_error)
  File "C:\Python27\lib\encodings\utf_8.py", line 16, in decode
    return codecs.utf_8_decode(input, errors, True)
UnicodeDecodeError: 'utf8' codec can't decode byte 0x92 in position 462: invalid
 start byte

我试过了：

将文件的文本复制并粘贴到新文件中
将 rtf 文件保存为 txt 文件
在 Notepad++ 中打开 txt 文件并选择“转换为 utf-8”并将编码设置为 utf-8
使用 Microsoft Word 打开文件并将其另存为新文件

没有任何效果。有任何想法吗？

它可能不相关，但这是您想知道的代码：

f = open(dir+location, "r")
doc = Rtf15Reader.read(f)
t = PlaintextWriter.write(doc).getvalue()
texts.append(t)
f.close()
vectorizer = TfidfVectorizer(sublinear_tf=True, max_df=0.5, stop_words='english')
X = vectorizer.fit_transform(texts)

score 10 · Accepted Answer

这将解决您的问题：

import codecs

f = codecs.open(dir+location, 'r', encoding='utf-8')
txt = f.read()

从那一刻起，txt 就是 unicode 格式，您可以在代码中的任何地方使用它。

如果要在处理后生成 UTF-8 文件，请执行以下操作：

f.write(txt.encode('utf-8'))

score 6 · Accepted Answer

正如我在邮件列表中所说，使用该charset_error选项并将其设置为ignore. 如果文件实际上是 utf-16，您还可以在 Vectorizer 中将 charset 设置为 utf-16。请参阅文档。

score 2 · Accepted Answer

您可以将 csv 文件行转储到 json 文件中，而不会出现任何编码错误，如下所示：

json.dump(row,jsonfile, encoding="ISO-8859-1")

score 1 · Accepted Answer

保留这一行：

vectorizer = TfidfVectorizer(encoding='latin-1',sublinear_tf=True, max_df=0.5, stop_words='english')

encoding = 'latin-1' 为我工作。

python - Python：UnicodeDecodeError：'utf8'编解码器无法解码字节

4 回答 4

Related

Reference