我有 csv 文件,其中包含 2 列“投诉详细信息”和“处置代码”。我想将投诉详细信息分类为8 个不同类别的处置代码,例如“门从内部锁定”、“供应商错误”、“缺少钥匙或锁”。 .. 数据集如图所示。 在此处输入图像描述
什么是分类和找到准确性的好方法。
最初我尝试从 ComplaintDetails 中删除停用词,然后使用naivebayes 分类器
代码如下:
import csv
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
your_list=[]
with open('H:/Project/rash.csv', 'r') as f:
reader = csv.reader(f)
your_list = list(reader)
print(your_list)
stop_words=set(stopwords.words("english"))
words= word_tokenize(your_list)
filteredSent=[]
for w in words:
if w not in stop_words:
filteredSent.append()
print(filteredSent)
但我收到以下错误:-
匹配 self._lang_vars.period_context_re().finditer(text): TypeError: expected string or bytes-like object