我在一些文本分类任务上尝试使用 sklearn.svm.SVC。我知道在使用 SVM 建模之前执行特征选择是一个有点可疑的努力,因为当使用完整的特征集时性能通常会达到峰值。从学术的角度来看,这仍然很有趣,可以看到不同的特征选择方法如何对特征进行不同的排序。
经过一番挖掘,我发现在 sklearn 中可用的特征选择指标的选择非常有限,即 Chi-2。我只是想知道其他常用的指标,例如 IG 和 BNS 是否已在 sklearn(或其他地方)中实现,我可以直接用作 sklearn.feature_selection.SelectKBest() 中的得分函数?
提前感谢您的友好建议。