1

我正在尝试通过从 CSV 文件加载我的训练集来训练带有 Textblob 的分类器。CSV 中的文本应为 UTF-8。当我尝试运行我的代码时:

# -*- coding: utf-8 -*-
from textblob.classifiers import NaiveBayesClassifier
with open('trainingset.csv', 'r') as fp:
   cl = NaiveBayesClassifier(fp, format="csv")

我收到以下错误:

UnicodeDecodeError: 'utf8' codec can't decode byte 0x92 in position 31:    invalid start byte

但是,似乎 Texblob 正在使用 UTF-8 对 CSV 进行编码(我查看了 CSV opener 的源代码,可以在此处找到)

所以我真的不明白为什么我会收到这个错误。有什么帮助可以解决这个问题吗?

4

1 回答 1

0

您应该在 python 文件的开头有以下行

 # -*- coding: utf-8 -*-
于 2015-03-10T22:39:54.533 回答