7

我正在寻找使用 sklearn 对多标签数据集执行特征选择。我想获得标签的最终特征集,然后我将在另一个机器学习包中使用它们。我打算使用我在这里看到的方法,它分别为每个标签选择相关特征。

from sklearn.svm import LinearSVC
from sklearn.feature_selection import chi2, SelectKBest
from sklearn.multiclass import OneVsRestClassifier
clf = Pipeline([('chi2', SelectKBest(chi2, k=1000)),
                ('svm', LinearSVC())])
multi_clf = OneVsRestClassifier(clf)

然后我计划使用以下方法提取每个标签包含的特征的索引:

selected_features = []
for i in multi_clf.estimators_:
    selected_features += list(i.named_steps["chi2"].get_support(indices=True))

现在,我的问题是,如何选择要包含在最终模型中的选定功能?我可以使用每一个独特的特征(包括只与一个标签相关的特征),或者我可以做一些事情来选择与更多标签相关的特征。

我最初的想法是创建一个选择给定特征的标签数量的直方图,并根据视觉检查确定阈值。我担心的是这种方法是主观的。是否有更原则的方式使用 sklearn 为多标签数据集执行特征选择?

4

2 回答 2

10

根据本文的结论:

[...] 根据所有标签的平均或最大卡方分数对特征进行排序,从而在使用较少特征的同时得到大多数最佳分类器。

然后,为了选择一个好的特性子集,您只需要这样做(类似):

from sklearn.feature_selection import chi2, SelectKBest

selected_features = [] 
for label in labels:
    selector = SelectKBest(chi2, k='all')
    selector.fit(X, Y[label])
    selected_features.append(list(selector.scores_))

// MeanCS 
selected_features = np.mean(selected_features, axis=0) > threshold
// MaxCS
selected_features = np.max(selected_features, axis=0) > threshold

注意:在上面的代码中,我假设 X 是某个文本矢量化器(文本的矢量化版本)的输出,而 Y 是一个 pandas 数据框,每个标签有一列(所以我可以选择该列Y[label])。此外,还有一个阈值变量应该事先固定。

于 2016-08-23T15:26:46.043 回答
1

http://scikit-learn.org/stable/modules/feature_selection.html

有很多选项,但 SelectKBest 和递归特征消除是两个相当流行的选项。

RFE 的工作原理是将统一的特征从模型中剔除,然后重新训练和比较结果,这样最后留下的特征就是能够实现最佳预测精度的特征。

什么是最好的很大程度上取决于您的数据和用例。

除了可以粗略地描述为特征选择的交叉验证方法之外,您还可以查看贝叶斯模型选择,这是一种更具理论性的方法,并且倾向于更简单的模型而不是复杂的模型。

于 2016-05-05T12:55:54.970 回答