以下示例展示了如何使用 Sklearn 20 新闻组数据训练分类器。
>>> from sklearn.feature_extraction.text import TfidfVectorizer
>>> categories = ['alt.atheism', 'talk.religion.misc', 'comp.graphics', 'sci.space']
>>> newsgroups_train = fetch_20newsgroups(subset='train', ... categories=categories)
>>> vectorizer = TfidfVectorizer() >>> vectors = vectorizer.fit_transform(newsgroups_train.data)
>>> vectors.shape (2034, 34118)
但是,我有自己想要使用的标记语料库。
在得到我自己的数据的 tfidfvector 之后,我会训练这样的分类器吗?
classif_nb = nltk.NaiveBayesClassifier.train(vectorizer)
回顾一下:我如何使用我自己的语料库而不是 20newsgroups,但使用的方式与此处相同?然后如何使用我的 TFIDFVectorized 语料库来训练分类器?
谢谢!