我开始使用sklearn.naive_bayes.GaussianNB进行文本分类,并且得到了很好的初步结果。我想使用分类器返回的概率作为置信度的度量,但是predict_proba()方法总是为所选类返回“1.0”,而对于所有其他类返回“0.0”。
我知道(从这里)“...... predict_proba 的概率输出不要太认真”,但是到那个程度?!分类器可能会误认为finance-investing或chords-strings,但predict_proba()输出没有任何犹豫的迹象......
关于上下文的一些信息:
-我一直在使用sklearn.feature_extraction.text.TfidfVectorizer进行特征提取,但首先没有使用stop_words或min/max_df限制词汇表——>我得到了非常大的向量。
- 我一直在分层类别树(浅层:深度不超过 3 层)上训练分类器,每个类别有 7 个文本(手动分类)。现在是flat
培训:我没有考虑等级制度。
生成的GaussianNB对象非常大(~300MB),并且预测相当慢:一个文本大约 1 秒。
这有关系吗?巨大的向量是这一切的根源吗?
如何获得有意义的预测?我需要使用不同的分类器吗?
这是我正在使用的代码:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import GaussianNB
import numpy as np
from sklearn.externals import joblib
Vectorizer = TfidfVectorizer(input = 'content')
vecs = Vectorizer.fit_transform(TextsList) # ~2000 strings
joblib.dump(Vectorizer, 'Vectorizer.pkl')
gnb = GaussianNB()
Y = np.array(TargetList) # ~2000 categories
gnb.fit(vecs.toarray(), Y)
joblib.dump(gnb, 'Classifier.pkl')
...
#In a different function:
Vectorizer = joblib.load('Vectorizer.pkl')
Classifier = joblib.load('Classifier.pkl')
InputList = [Text] # One string
Vec = Vectorizer.transform(InputList)
Probs = Classifier.predict_proba([Vec.toarray()[0]])[0]
MaxProb = max(Probs)
MaxProbIndex = np.where(Probs==MaxProb)[0][0]
Category = Classifier.classes_[MaxProbIndex]
result = (Category, MaxProb)
更新:
按照下面的建议,我尝试了MultinomialNB & LogisticRegression。它们都返回不同的概率,并且在任何方面都更适合我的任务:更准确的分类、更小的内存对象和更快的速度(MultinomialNB快如闪电!)。
我现在有一个新问题:返回的概率非常小——通常在 0.004-0.012 范围内。这是针对预测/获胜类别的(并且分类是准确的)。