在我的 scikits-learn 管道中,我想将自定义词汇表传递给 CountVectorizer():
text_classifier = Pipeline([
('count', CountVectorizer(vocabulary=myvocab)),
('tfidf', TfidfTransformer()),
('clf', LinearSVC(C=1000))
])
但是,据我所知,当我打电话时
text_classifier.fit(X_train, y_train)
Pipeline 使用 CountVectorizer() 的 fit_transform() 方法,忽略 myvocab。如何修改我的管道以使用 myvocab?谢谢!