16

我正在使用sklearn.pipeline.Pipeline链接特征提取器和分类器。有没有办法并行组合多个特征选择类(例如来自 的那些sklearn.feature_selection.text)并加入它们的输出?

我的代码现在如下所示:

pipeline = Pipeline([
    ('vect', CountVectorizer()),
    ('tfidf', TfidfTransformer()),
    ('clf', SGDClassifier())])

结果如下:

vect -> tfidf -> clf

我希望能够指定如下所示的管道:

vect1 -> tfidf1 \
                 -> clf
vect2 -> tfidf2 /
4

1 回答 1

17

这最近在 scikit-learn 的 master 分支中实现,名称为FeatureUnion

http://scikit-learn.org/dev/modules/pipeline.html#feature-union

于 2012-10-04T09:36:26.597 回答