我必须将文章分类到我的自定义类别中。所以我选择了 SciKit 的 MultinomialNB。我正在做监督学习。所以我有一个编辑每天查看文章然后标记它们。一旦它们被标记,我就会将它们包含在我的学习模型中,依此类推。下面是了解我在做什么和使用什么的代码。(我不包括任何导入行,因为我只是想让您了解我在做什么)(参考)
corpus = (train_set)
vectorizer = HashingVectorizer(stop_words='english', non_negative=True)
x = vectorizer.transform(corpus)
x_array = x.toarray()
data_array = np.array(x_array)
cat_set = list(cat_set)
cat_array = np.array(cat_set)
filename = '/home/ubuntu/Classifier/Intelligence-MultinomialNB.pkl'
if(not os.path.exists(filename)):
classifier.partial_fit(data_array,cat_array,classes)
print "Saving Classifier"
joblib.dump(classifier, filename, compress=9)
else:
print "Loading Classifier"
classifier = joblib.load(filename)
classifier.partial_fit(data_array,cat_array)
print "Saving Classifier"
joblib.dump(classifier, filename, compress=9)
现在我在自定义标记后准备好了一个分类器,它可以很好地处理新文章并且像魅力一样工作。现在已经出现了针对每个类别获取最常用词的要求。简而言之,我必须从学习模型中提取特征。通过查看文档,我只发现了如何在学习时提取文本特征。
但是一旦学会并且我只有模型文件(.pkl),是否可以加载该分类器并从中提取特征?
是否有可能针对每个类别或类别获得最常用的术语?